Python 新浪微博爬虫

源码码头网 • 2024年05月14日 11:53 • 其他源码 • 阅读 2

Python 新浪微博爬虫，支持模拟登陆，微博文字另存为本地文件网上大部分对微博的爬虫都是先人工登陆获取cookie再进行接下来的抓取操作的，所以我写了一份模拟登陆获取cookie的（因为是分析为主要目的

本文包含相关资料包-----> 点击直达获取<-------

Python 新浪微博爬虫，支持模拟登陆，微博文字另存为本地文件

网上大部分对微博的爬虫都是先人工登陆获取cookie再进行接下来的抓取操作的，所以我写了一份模拟登陆获取cookie的（因为是分析为主要目的，所以纯手动构建cookie，没有使用requests.session），并实现了提交验证码，本文我对分析过程和代码进行步骤分解，完整的代码请见末尾 Github 仓库，不过还是建议看一遍正文，因为代码早晚会失效，解析思路才是永恒。

分析 POST 请求

首先打开控制台正常登录一次，可以很快找到登录的 API 接口，这个就是模拟登录 POST 的链接。

我们要构建header 和 Formdata

构建 Headers

观察POST请求的header发现header里面已经含有cookie了

翻看之前的请求，容易发现SSO-DBL来自一个叫prelogin的请求，这个请求在输入完用户名，鼠标点击输入密码的文本框时触发

ULOGIN_IMG则是请求验证码图片的时候获取的,而获取验证码又要带值为SSO-DBL的cookie进行请求

我们来看prelogin请求的参数

值得关注的是那串数字和su，其余我们估计是固定参数，仔细观察发现那串数字其实是一个13位时间戳，直接使用time模块即可。接下来就要构造su了，Ctrl+F全局搜索输入'su:'

找到构造su的js代码，发现是将用户名进行编码得到的使用bs64模块构造即可。

这样我们就完成了prelogin请求的header和参数构造，可以获得SSO-DBL了

接下来分析验证码图片的请求参数

其中s是固定值，r经测试可以反复使用同一个值，所以只有p是需要获取的，而p可以在刚才prelogin的response中找到

至此POST请求的header已经构建好了，其他的复制黏贴即可

构建 Form-Data

这里nonce, pcid, rsakv都可以在prelogin的response里找到，door是验证码，prelt是随机数，所以每次用同一个就行，servertime是时间戳

值得关注的是sp,老办法Ctrl+F找到构造的js代码

发现这里使用了rsa算法加密，这里的公钥用了从prelogin里返回的一个叫pubkey的16进制数和16进制的10001共同生成，再将包含servertime，刚才提到的nonce,和用户密码的字符串进行加密得出sp,具体实现可以看代码。

到这里所有参数已经找齐了，模拟POST请求即可。

我们可以看到POST请求成功后我们的cookie更新了一大堆值

将这些值取出来后可以更新我们的cookie。

到了这里本来以为已经大功告成，我们找到登陆成功的html请求

看他的请求cookie

发现其中一些值和我们找到的有很大出入，说明之前cookie又发生改变了。我们耐心地往上翻请求，看看新出现的以及改变了值的cookie都在哪些请求中产生。

发现我们需要找的变化了的cookie值都可以在这几个请求中找到，用之前的方法模拟请求并且抓下来即可。其中有一些请求的url和参数是每次都不同的，但是也能在我们之前发送的一些请求的response里找得到，用正则匹配出来即可。

至此我们已经完成了最终home请求所需cookie的构造，模拟请求并获得最终登陆成功的cookie即可。

参考文献

基于关键词的微博爬虫系统的设计与实现（浙江工业大学·叶婷）
基于SSD和时序模型的微博好友推荐系统的设计与实现（江苏大学·景迪）
分布式智能网络爬虫的设计与实现（中国科学院大学(工程管理与信息技术学院)·何国正）
基于SSD和时序模型的微博好友推荐系统的设计与实现（江苏大学·景迪）
基于自定义词典的网络文本情感分析方法（电子科技大学·何博）
基于分布式爬虫的社交媒体灾害信息挖掘系统的设计与实现（华中科技大学·单欣刚）
基于半监督学习的微博水军识别系统的研究与实现（东南大学·陶涛）
基于社交网络的用户多维度求职意向的研究与应用（电子科技大学·冉秋萍）
基于SSD和时序模型的微博好友推荐系统的设计与实现（江苏大学·景迪）
基于Storm云平台的分布式网络爬虫技术研究与实现（电子科技大学·付志鸿）
基于大数据的微博转发预测及热点发现算法的研究（西安电子科技大学·谢子卓）
基于微博的网络舆情关键技术的研究与实现（电子科技大学·单月光）
微博数据挖掘可视化系统的设计与实现（吉林大学·王婧雅）
基于关键词的微博爬虫系统的设计与实现（浙江工业大学·叶婷）
面向微博的网络爬虫研究与实现（复旦大学·刘晶晶）

本文内容包括但不限于文字、数据、图表及超链接等）均来源于该信息及资料的相关主题。发布者：源码码头网，原文地址：https://m.bishedaima.com/yuanma/35947.html

Python 爬虫新浪微博

资源下载

本站所有项目都经过严格测试,直连告诉下载项目包, 毕设课设定制需求, 点此提交表单

代码都经过了认真的调试,不免费哦联系QQ2625289483 更多资料关注公号: 大学生学习圈

基于Jsp和Sql Server 2008实现的在线公益平台系统

基于Jsp和Sql Server 2008实现的在线公益平台系统摘要随着全社会对环境保护，资源节约，弱势群体以及对生物多样性保护的关注度越来越高

毕设项目助手
2024年05月14日
644 1 93 68
基于Spring Boot的宿舍管理系统

SpringBootDMS 【毕业设计】基于 Spring Boot 的宿舍管理系统(Dormitory Management System)，以 MySQL 为数据库

代码货栈
2024年05月14日
6 1 2 2
基于Python的实时聊天室开发

实时聊天室开发过程文档一，采用了 pyqt 和 thinker 两个前端模块开发过程：先使用 qt designer 制作出界面，再使用 pyuic 把界面转为对应的 python 代码

代码向导
2024年05月14日
3 1 2 1
实现一个简单的分层实验系统之Python

实现一个简单的分层实验系统前言所谓一次实验（这里都是指网络实验），即是在一次请求中，应用若干参数，产生某种结果的过程，而一组实验，即是在若干次请求（流量）

源码货栈
2024年05月14日
5 1 3 1
基于SSH和MySQL的仓库管理系统的设计与实现

基于SSH和MySQL的仓库管理系统的设计与实现摘要随着企业规模的不断发展，仓库管理的物资种类数量在不断增加，出入库频率剧增，仓库管理作业也已十分复杂和多样化

毕设客栈
2024年05月14日
2 1 1 1
基于SSM实现的客户管理系统

1 概述一个简单的客户关系管理系统，管理客户的基本数据，客户的分配，客户的流失以及客户的状态， 2 技术 SSM + Jdk1，8 + MySql5

毕设货栈
2024年05月14日
7 1 3 1
基于Java+Jsp+Servlet+Mysql的机票预定系统,航空预定系统

这是一个🔥🔥基于Jsp+Servlet+Mysql的机票预定系统🔥🔥的项目源码，开发语言Java，开发环境Idea/Eclipse，这个机票预订系统开发技术栈为JSP项目

毕设导航
2024年05月23日
80 1 9 8
基于SpringBoot框架的信息化在线教学平台

这是一套采用Java编程语言，基于SpringBoot框架构建的现代化在线教育系统源代码，该项目运用了SpringBoot和Vue的技术栈，开发工具为Idea或Eclipse

源码货栈
2024年05月23日
11 1 3 3
基于JavaWeb的学生信息管理系统

基于 Java Web 的学生信息管理系统关键词：信息管理；Java；JSP； MySQL；该系统采用 Java 语言结合 JSP 技术编写

代码货栈
2024年05月14日
4 1 1 1
基于SpringBoot框架的老年人体检管理系统

这是一套采用Java语言编写的🔥🔥SpringBoot为核心的老年人健康检查管理系统源代码，该项目运用了SpringBoot框架以及Vue技术进行开发，支持Idea或Eclipse集成开发环境

代码小屋
2024年05月23日
24 1 4 5

发表回复

登录后才能评论