MCPcopy
hub / github.com/DropsDevopsOrg/ECommerceCrawlers

github.com/DropsDevopsOrg/ECommerceCrawlers @V11_0.1 sqlite

repository ↗ · DeepWiki ↗ · release V11_0.1 ↗
366 symbols 1,154 edges 54 files 33 documented · 9%
README

GitHub contributors

ECommerceCrawlers

多种电商商品数据🐍爬虫,整理收集爬虫练习。通过实战项目练习解决一般爬虫中遇到的问题。

通过每个项目的readme,了解爬取过程分析。

对于精通爬虫的pyer,这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护,确保即下即用,减少爬取的时间。

对于小白通过✍️实战项目,了解爬虫的从无到有。爬虫过程的分析可以移步项目wiki。爬虫可能是一件非常复杂、技术门槛很高的事情,但掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现,但建议从一开始就要有一个具体的目标。

在目标的驱动下,你的学习才会更加精准和高效。那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的😁😁😁。

欢迎大家对本项目的不足加以指正,⭕️Issues或者🔔Pr

在之前上传的大文件贯穿了3/4的commits,发现每次clone达到100M,这与我们最初的想法违背,我们不能很有效的删除每一个文件(太懒),将重新进行初始化仓库的commit。并在今后不上传爬虫数据,优化仓库结构。

CrawlerDemo

Contribution👏

@Joynice @liangweiyang
> wait for you

What You Learn ?

本项目使用了哪些有用的技术

  • 数据分析
  • [x] chrome Devtools
  • [x] Fiddler
  • [x] Firefox
  • [ ] appnium
  • [x] anyproxy
  • [x] mitmproxy
  • 数据采集
  • [x] urllib
  • [x] requests
  • [x] scrapy
  • [x] selenium
  • [ ] pypputeer
  • 数据解析
  • [x] re
  • [x] beautifulsoup
  • [x] xpath
  • [x] pyquery
  • [x] css
  • 数据保存
  • [x] txt文本
  • [x] csv
  • [x] excel
  • [ ] mysql
  • [x] redis
  • [x] mongodb
  • 反爬验证
  • [x] mitmproxy 绕过淘宝检测
  • [x] js数据解密
  • [x] js数据生成对应指纹库
  • [x] 文字混淆
  • [ ] 穿插脏数据
  • 效率爬虫
  • [x] 单线程
  • [x] 多线程
  • [x] 多进程
  • [x] 异步协成
  • [ ] 分布式爬虫系统

链接标识官方文档或推荐例子

What`s Spider 🕷?

🙋0x01 爬虫简介

爬虫

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

爬虫作用 - 市场分析:电商分析、商圈分析、一二级市场分析等 - 市场监控:电商、新闻、房源监控等 - 商机发现:招投标情报发现、客户资料发掘、企业客户发现等

网页介绍

  • url
  • html
  • css
  • js

Roobots协议

无规矩不成方圆,Robots协议就是爬虫中的规矩,它告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。 通常是一个叫作robots.txt的文本文件,放在网站的根目录下。

🙋0x02爬取过程

获取数据

模拟获取数据

🙋0x03解析数据

re

beautifulsoup

xpath

yquery

css

🙋0x04 存储数据

小规模数据存储(文本)

  • txt文本
  • csv
  • excel

大规模数据存储(数据库)

  • mysql
  • redis
  • mongodb

🙋0x05 反爬措施

反爬

反反爬

🙋0x06 效率爬虫

多线程

多进程

异步协程

scrapy框架

Padding

…………

Awesome-Example😍:

Core symbols most depended-on inside this repo

get
called by 224
XianyuCrawler/asyxianyu.py
insert
called by 15
TaobaoCrawler/dbsimil.py
config
called by 10
OthertCrawler/0x11zzc/tk_zzc.py
update
called by 10
TaobaoCrawler/dbkeyword.py
insert
called by 8
SohuNewCrawler/db.py
save
called by 8
OthertCrawler/0x07gdfda_pharmacy/gdfda_pharmacy.py
delete_all
called by 8
TaobaoCrawler/dbsimil.py
get_cookies
called by 8
TaobaoCrawler/dbcookie.py

Shape

Method 303
Class 48
Function 15

Languages

Python100%

Modules by API surface

TaobaoCrawler/TK_crawler.py53 symbols
OthertCrawler/0x11zzc/tk_zzc.py34 symbols
SohuNewCrawler/TK_News.py33 symbols
SohuNewCrawler/db.py27 symbols
TaobaoCrawler/listen.py14 symbols
TaobaoCrawler/crawler.py12 symbols
TaobaoCrawler/login.py11 symbols
DianpingCrawler/dazhong.py11 symbols
TaobaoCrawler/dbcookie.py10 symbols
OthertCrawler/0x08fofa/Fofa_spider.py10 symbols
XianyuCrawler/asyxianyu.py9 symbols
TaobaoCrawler/dbkeyword.py9 symbols

Datastores touched

(mongodb)Database · 1 repos

For agents

$ claude mcp add ECommerceCrawlers \
  -- python -m otcore.mcp_server <graph>

⬇ download graph artifact