安装
pip install wechatarticles
展示地址:
日更,获取公众号的最新文章链接,支持日更阅读点赞评论正文
技术交流可以直接联系,微信二维码见末尾(微信;wnma3mz)。烦请进行备注,如wechat_spider
注:本项目仅供学习交流,严禁用于商业用途(该项目也没法直接使用),不能达到开箱即用的水平。使用本项目需要读文档+源码+动手实践,参考示例代码(test文件夹下)进行改写。
提示:另外,已经有很多朋友(大佬)通过直接看源码,已经基于这套项目,或者重写,用于各自的需求。
实现思路一:
完整思路可以参考我的博客: 记一次微信公众号爬虫的经历(微信文章阅读点赞的获取)
实现思路二:
公开已爬取的公众号历史文章的永久链接,日期均截止commit时间,仅供测试与学习,欢迎各位关注这些优质公众号。
公众号列表
<li>科技美学</li>
<li>共青团中央</li>
<li>南方周末</li>
<li>AppSo</li>
项目始于2017年,当前更新于2021年3月
项目代码进行调整,调用以前的接口请使用pip install wechatarticles==0.5.8。
参数文件说明见README
python: 3.6.2、3.7.3功能
公众号相关
<li>公众号信息</li>
<li>公众号biz。获取方式:清博、公众号网页</li>
<li>公众号发表文章数量(不完全准确)</li>
文章相关
<li>某公众号文章的url。获取方式:公众号网页、PC端微信、移动端微信、微信读书</li>
<li>某公众号所有文章信息(包含点赞数、阅读数、评论信息),需要手动更改循环</li>
<li>某公众号指定文章的信息</li>
<li>支持微信文章下载至本地转为html(图片可选是否保存)</li>
此处有次数限制,不可一次获取太多url。解决方案多个账号同时爬取 test_WechatUrls.py
见博客与下方文档
official_cookie和token手动获取方式见这篇文档
wechat_cookie和appmsg_token手动获取的介绍,可以参考这篇文档
wechat_cookie和appmsg_token自动获取的介绍(需要安装mitmproxy,已放弃),仅供参考这篇文档。默认开放端口为8080。
联系注意事项:
不(能)做自动登录微信公众号、微信
不(能)做实时获取参数
换一个公众号、参数过期,均需手动更新,如何获取参数均在文章中提及,请仔细查阅
不能做关键词搜索(即微信搜一搜功能),比如搜索所有含“科技”两个字的文章。
Q & A
项目能不能正常运行?
答:项目可正常运行。
xxx怎么运行/启动,需要获取哪些参数?
答:请看源码,并手动运行看看输出报错。
xxx参数怎么获取?
答:文档和博客均描述的很清楚,请仔细阅读。
我要xxxx,需要怎么做?
答:看文档,看源码
网页每日更新的方式怎么做的?
答:不是万能key。方案很简单,就是模拟点击+代理软件(Fiddler或Mitmproxy)拦截包,每日抓一次,如果你有更好的方案也欢迎告知。这部分未开源(如果有看到相关完整开源的可以提个issue学习一下),纯粹是因为配环境+定制化太麻烦,而且存在一定的问题。懂的看到这里能够实现的就能实现,如果问我我也不好回答你,太耗时耗力。
PC端微信与抓包软件Fiddler是必装的吗?
答:不是。这个只是我了解(认为)到,这两个是相对最容易完成整个过程的。代替方案:可以抓手机端的微信(安卓和IOS均可,安卓的要root才能抓到阅读点赞);抓包软件Fiddler这个可替代的很多,只要能进行HTTPS抓包查看数据就行。
附录:
问问题的正常方式:
描述清楚你运行的系统环境、Python环境...
运行了什么代码(改动了哪部分),报了什么错(请完整截图)?
自己根据报错做了哪些尝试?(文档中是否有描述?在网上搜索的解决方案有哪些)
请按照以上流程进行提问,如果加完好友问题表述不清,一律无视。请直接说问题or需求,不需要等我回复再说。谢谢!
若无动手能力,学习兴趣,本项目可能不适合你。请不要抱着“我就问这么一个问题,能占用多少时间的心态”,如果每个看到项目的人都占用1分钟,沟通成本巨大,请理解。谢谢!



$ claude mcp add wechat_articles_spider \
-- python -m otcore.mcp_server <graph>