【编程开发】爬虫实践：使用开源项目获取微博博文

开源项目地址：

https://github.com/dataabc/weiboSpider

https://github.com/dataabc/weibo-crawler

https://github.com/dataabc/weibo-search

运行环境

开发语言：python3

安装python：https://www.python.org/downloads/
安装过程中记得勾选“添加至环境变量”

系统： Windows/Linux/macOS

weiboSpider

1. 安装程序-源码安装

解压并进入程序文件夹

$ pip install -r requirements.txt

安装依赖如出错，则打开requirements.txt把后面指定版本号的部分删除。

并且推荐各位使用嵌入式python或虚拟环境进行安装，不会污染自己的默认环境

2. 运行程序

源码安装的用户可以在weiboSpider目录运行如下命令，pip安装的用户可以在任意有写权限的目录运行如下命令

$ python -m weibo_spider

第一次执行，会自动在当前目录创建config.json配置文件，配置好后执行同样的命令就可以获取微博了。

3. 程序设置

要了解程序设置，请查看源码中README和docs。

weibocrawler

weibocrawler为weibospider变种，基本逻辑一致，可参考其README安装。

weibo-crawler讲义.pdf

weiboSearch

本程序的所有配置都在setting.py文件中完成，该文件位于“weibo-search\weibo\settings.py”。

1. 下载脚本

解压文件夹

2. 安装Scrapy

安装Scrapy

pip install scrapy

如果有不兼容问题

pip uninstall Twisted

pip install Twisted==22.10.0

检查是否安装成功，在终端中输入

scrapy version

3. 安装依赖

pip install -r requirements.txt

4. 配置程序设置

修改weibo\settings.py

要了解程序设置，请查看源码中README和docs。

！！一定要设置cookie，然后时间跨度不超过5天，时间跨度大分几次爬

浏览器打开weibo.cn，登录
按下F12，切到网络选项卡
刷新，注意网址不能有后缀
找到weibo.cn的请求标头（request）中cookie部分，复制到settings.py中
注意，每次程序运行之前都要获取自己的cookie

5. 运行程序

在scrapy.cfg所在目录下的路径栏输入cmd，或者右键在终端打开都行

终端中输入

scrapy crawl search

运行时间可能很久，但可以提前掐断（Ctrl+C）

菜单

【编程开发】爬虫实践：使用开源项目获取微博博文

分享

【编程开发】爬虫实践：使用开源项目获取微博博文

运行环境

weiboSpider

1. 安装程序-源码安装

2. 运行程序

3. 程序设置

weibocrawler

weiboSearch

1. 下载脚本

2. 安装Scrapy

3. 安装依赖

4. 配置程序设置

5. 运行程序

评论

折腾记录-Linux使用nmtui工具连接网络、配置固定IP

【折腾记录】WSL、Linux与Docker的互通互联

【折腾记录】FastGPT私有化部署+OneAPI配置大模型

【会议论文】性别与经济舆情在时间序列上的主题演化研究

【编程开发】爬虫实践：使用开源项目获取微博博文

【学术研究】实证研究设计：青年人叙事化二创内容参与动机研究

Animemory序1-我的ACGN纪事·动画篇

【编程开发】FFmpeg+Python GUI：实现批量头尾处理

讲点嗑学SP-初期运营报告

讲点嗑学01-锐评BUCCHIGIRI