多种电商商品数据爬虫项目脚本

发表于 2019年07月11日
安全工具

目录表

ECommerceCrawlers

爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。本项目是一个针对多种电商商品数据爬虫。通过实战项目练习解决一般爬虫中遇到的问题。这是一个很好的例子减少重复收集轮子的过程。项目经常更新维护，确保即下即用，减少爬取的时间。

你还可参阅体验盒子推荐的几个反爬虫项目一起研究使用。

多种电商商品数据爬虫项目脚本 — 电商商品数据爬虫项目脚本

CrawlerDemo

DianpingCrawler：大众点评爬取
TaobaoCrawler：淘宝商品爬取
ZhaopinCrawler：各大招聘网站爬取
XianyuCrawler：闲鱼商品爬取
SohuNewCrawler：新闻网爬取
WechatCrawler：微信公众号爬取
cnblog：scrapy博客园爬取
OtherCrawlers：一些有趣的爬虫例子
- 0x01 百度贴吧
- 0x02 豆瓣电影
- 0x03 阿里任务
- 0x04 包图网视频
- 0x05 全景网图片
- 0x06 豆瓣音乐
- 0x07 某省药监局
- 0x08 fofa
- 0x09 汽车之家
- 0x010 国家统计局
- 0x10 baidu
- 0x11 蜘蛛泛目录

本项目涉及的爬虫技术

本项目使用了哪些有用的技术

数据分析
- chrome Devtools
- Fiddler
- Firefox
- appnium
- anyproxy
- mitmproxy
数据采集
- urllib
- requests
- scrapy
- selenium
- pypputeer
数据解析
- re
- beautifulsoup
- xpath
- pyquery
- css
数据保存
- txt文本
- csv
- excel
- mysql
- redis
- mongodb
反爬虫验证
- mitmproxy 绕过淘宝检测
- js数据解密
- js数据生成对应指纹库
- 文字混淆
- 穿插脏数据
效率爬虫
- 单线程
- 多线程
- 多进程
- 异步协成
- 生产者消费者多线程
- 分布式爬虫系统

标签：Python , 反爬虫 , 爬虫原文连接：多种电商商品数据爬虫项目脚本 所有媒体，可在保留署名、 原文连接 的情况下转载，若非则不得使用我方内容。

HackBar：一个硬核Burpsuite插件，支持SQL注入、XSS、SHELL等功能 FTPBruter：一个FTP服务器暴力破解脚本

Python模拟登陆一些大型网站的项目

Python模拟登陆一些大型网站的项目

爬虫实用工具，解密/cookies获取/代理池清洗等

爬虫实用工具，解密/cookies获取/代理池清洗等

解决AttributeError: module ‘enum’ has no attribute ‘IntFlag’

解决AttributeError: module ‘enum’ has no attribute ‘IntFlag’

FileSensor：一个基于爬虫的动态敏感文件探测工具

FileSensor：一个基于爬虫的动态敏感文件探测工具

FTPBruter：一个FTP服务器暴力破解脚本

FTPBruter：一个FTP服务器暴力破解脚本

Bing爬虫工具，通过IP发现子域名：bingip2hosts

Bing爬虫工具，通过IP发现子域名：bingip2hosts

WAScan – Web应用程序安全扫描器

WAScan – Web应用程序安全扫描器

POC-T：一个渗透测试插件化并发框架，用于采集|爬虫|爆破|批量POC 等

POC-T：一个渗透测试插件化并发框架，用于采集|爬虫|爆破|批量POC 等

免费Developer打包IPA没小组件权限

免费Developer打包IPA没小组件权限

2025年最新9大真正免费AI大模型API汇总

2025年最新9大真正免费AI大模型API汇总

Nginx 利用 fail2ban 自动封禁乱扫的 IP

Nginx 利用 fail2ban 自动封禁乱扫的 IP

最新绕过Cloudflare最佳实践

最新绕过Cloudflare最佳实践

NinjiaTag，兼容Apple Find My网络的开源防丢神器

NinjiaTag，兼容Apple Find My网络的开源防丢神器

好用的Mac清理卸载软件推荐

好用的Mac清理卸载软件推荐

AutoGen Studio 容器化部署与维护指南

AutoGen Studio 容器化部署与维护指南

肌理解剖师：中年人的小确幸

肌理解剖师：中年人的小确幸

N/A