【编程开发】爬虫实践:使用开源项目获取微博博文

wish
发布于 2024-06-20 / 43 阅读
0
0

【编程开发】爬虫实践:使用开源项目获取微博博文

开源项目地址:

https://github.com/dataabc/weiboSpider

https://github.com/dataabc/weibo-crawler

https://github.com/dataabc/weibo-search

运行环境

开发语言:python3

  • 安装python:https://www.python.org/downloads/

  • 安装过程中记得勾选“添加至环境变量”

系统: Windows/Linux/macOS

weiboSpider

1. 安装程序-源码安装

解压并进入程序文件夹

$ pip install -r requirements.txt

安装依赖如出错,则打开requirements.txt把后面指定版本号的部分删除。

并且推荐各位使用嵌入式python或虚拟环境进行安装,不会污染自己的默认环境

2. 运行程序

源码安装的用户可以在weiboSpider目录运行如下命令,pip安装的用户可以在任意有写权限的目录运行如下命令

$ python -m weibo_spider

第一次执行,会自动在当前目录创建config.json配置文件,配置好后执行同样的命令就可以获取微博了。

3. 程序设置

要了解程序设置,请查看源码中README和docs。

weibocrawler

weibocrawler为weibospider变种,基本逻辑一致,可参考其README安装。

weibo-crawler讲义.pdf

weiboSearch

本程序的所有配置都在setting.py文件中完成,该文件位于“weibo-search\weibo\settings.py”。

1. 下载脚本

解压文件夹

2. 安装Scrapy

安装Scrapy

pip install scrapy

如果有不兼容问题

pip uninstall Twisted
pip install Twisted==22.10.0

检查是否安装成功,在终端中输入

scrapy version

3. 安装依赖

pip install -r requirements.txt

4. 配置程序设置

修改weibo\settings.py

要了解程序设置,请查看源码中README和docs。

!!一定要设置cookie,然后时间跨度不超过5天,时间跨度大分几次爬

  1. 浏览器打开weibo.cn,登录

  2. 按下F12,切到网络选项卡

  3. 刷新,注意网址不能有后缀

  4. 找到weibo.cn的请求标头(request)中cookie部分,复制到settings.py中

  5. 注意,每次程序运行之前都要获取自己的cookie

5. 运行程序

在scrapy.cfg所在目录下的路径栏输入cmd,或者右键在终端打开都行

终端中输入

scrapy crawl search

运行时间可能很久,但可以提前掐断(Ctrl+C)


评论