开源项目地址:
https://github.com/dataabc/weiboSpider
https://github.com/dataabc/weibo-crawler
https://github.com/dataabc/weibo-search
运行环境
开发语言:python3
安装python:https://www.python.org/downloads/
安装过程中记得勾选“添加至环境变量”
系统: Windows/Linux/macOS
weiboSpider
1. 安装程序-源码安装
解压并进入程序文件夹
$ pip install -r requirements.txt
安装依赖如出错,则打开requirements.txt把后面指定版本号的部分删除。
并且推荐各位使用嵌入式python或虚拟环境进行安装,不会污染自己的默认环境
2. 运行程序
源码安装的用户可以在weiboSpider目录运行如下命令,pip安装的用户可以在任意有写权限的目录运行如下命令
$ python -m weibo_spider
第一次执行,会自动在当前目录创建config.json配置文件,配置好后执行同样的命令就可以获取微博了。
3. 程序设置
要了解程序设置,请查看源码中README和docs。
weibocrawler
weibocrawler为weibospider变种,基本逻辑一致,可参考其README安装。
weiboSearch
本程序的所有配置都在setting.py文件中完成,该文件位于“weibo-search\weibo\settings.py”。
1. 下载脚本
解压文件夹
2. 安装Scrapy
安装Scrapy
pip install scrapy
如果有不兼容问题
pip uninstall Twisted
pip install Twisted==22.10.0
检查是否安装成功,在终端中输入
scrapy version
3. 安装依赖
pip install -r requirements.txt
4. 配置程序设置
修改weibo\settings.py
要了解程序设置,请查看源码中README和docs。
!!一定要设置cookie,然后时间跨度不超过5天,时间跨度大分几次爬
浏览器打开weibo.cn,登录
按下F12,切到网络选项卡
刷新,注意网址不能有后缀
找到weibo.cn的请求标头(request)中cookie部分,复制到settings.py中
注意,每次程序运行之前都要获取自己的cookie
5. 运行程序
在scrapy.cfg所在目录下的路径栏输入cmd,或者右键在终端打开都行
终端中输入
scrapy crawl search
运行时间可能很久,但可以提前掐断(Ctrl+C)