多种电商商品数据爬虫项目脚本

ECommerceCrawlers

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。本项目是一个针对多种电商商品数据爬虫。通过实战项目练习解决一般爬虫中遇到的问题。这是一个很好的例子减少重复收集轮子的过程。项目经常更新维护,确保即下即用,减少爬取的时间。

你还可参阅体验盒子推荐的几个反爬虫项目一起研究使用。

多种电商商品数据爬虫项目脚本
电商商品数据爬虫项目脚本

CrawlerDemo

  •  DianpingCrawler:大众点评爬取
  • TaobaoCrawler:淘宝商品爬取
  • ZhaopinCrawler:各大招聘网站爬取
  • XianyuCrawler:闲鱼商品爬取
  •  SohuNewCrawler:新闻网爬取
  • WechatCrawler:微信公众号爬取
  •  cnblog:scrapy博客园爬取
  •  OtherCrawlers:一些有趣的爬虫例子
    •  0x01 百度贴吧
    •  0x02 豆瓣电影
    •  0x03 阿里任务
    •  0x04 包图网视频
    •  0x05 全景网图片
    •  0x06 豆瓣音乐
    •  0x07 某省药监局
    •  0x08 fofa
    •  0x09 汽车之家
    •  0x010 国家统计局
    •  0x10 baidu
    •  0x11 蜘蛛泛目录

本项目涉及的爬虫技术

本项目使用了哪些有用的技术

  • 数据分析
    •  chrome Devtools
    •  Fiddler
    •  Firefox
    •  appnium
    •  anyproxy
    •  mitmproxy
  • 数据采集
    •  urllib
    •  requests
    •  scrapy
    •  selenium
    •  pypputeer
  • 数据解析
    •  re
    •  beautifulsoup
    •  xpath
    •  pyquery
    •  css
  • 数据保存
    •  txt文本
    •  csv
    •  excel
    •  mysql
    •  redis
    •  mongodb
  • 反爬虫验证
    •  mitmproxy 绕过淘宝检测
    •  js数据解密
    •  js数据生成对应指纹库
    •  文字混淆
    •  穿插脏数据
  • 效率爬虫
    •  单线程
    •  多线程
    •  多进程
    •  异步协成
    •  生产者消费者多线程
    •  分布式爬虫系统