随便取个名字_哈哈的gravatar头像
随便取个名字_哈哈2020-06-14 09:30:50

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

项目描述

使用selenium、webdriver爬取淘宝的图片、商品、价格等信息。在命令行界面输入爬取的参数,把参数信息记录到txt文件中,运行爬虫程序后,先使用手机扫码登陆,然后pc端网页会自动翻淘宝的网页,知道翻到淘宝的最后一页,就会停止对商品的爬取

web端功能:

1.下拉框选择商品搜索

2.点击图片放大

3.点击详情,查看商品详情

4.用饼图查看交易量占比

运行:

1.新建命令行记录文件。命令行记录文件是记录爬虫时,你输入的商品名字和数据库名字(具体位置是E:\a\cmd.txt) 2.pip安装selenium,然后查看你的chrome版本,根据你的版本安装webdriver.exe。具体教程: 3.启动爬虫(商品名字是要在淘宝搜索的商品,数据库名字是爬取的商品要存在哪个数据库里面,数据库名字最好是拼音或者英文) python crawl_taobao.py -k 商品名字 -d 数据库名字 4.启动web: python runserver.py

运行环境

python+pycharm

项目技术(必填)

python+selenium+mongodb+layui

数据库文件(可选)

mongodb

依赖包文件(可选)

>pip install pyquery

>pip install pymongo

运行视频(可选)

链接:https://pan.baidu.com/s/1ijbE7ih3-AH0t5nuAgtjOQ
提取码:9ym9

是否原创(转载必填原文地址)

基于网上的项目修改的

项目截图(必填)

抓取端

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

web端

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

运行截图(必填)

http://127.0.0.1:5000/

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

商品详情

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

按商品类别搜索商品

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

统计图

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

按商品类别统计

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

执行抓取命令python crawl_taobao.py -k 电脑 -d diannao

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

搜最代码

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

会自动写入cmd.txt

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

cmd下查询mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

>use zuidaima

>db.zuidaimatable.find()

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

注意事项(可选)

1.mongodb的db可以先建立也可以不用

2.cmd.txt文件需要在执行爬虫脚本之前建立

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

CmdSave.py

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

SwitchGoods.py

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

3.抓取时,分页有时候会卡,手动点击下一页就会恢复正常

4.运行runserver.py时需要设置配置python sdk才可以


打赏

已有1人打赏

最代码官方的gravatar头像

文件名:taobao.zip,文件大小:2934.736K下载
  • /
      • /taobao_crawled-master
        • /taobao_crawled-master/.gitattributes
          • /taobao_crawled-master/.idea
            • /taobao_crawled-master/.idea/encodings.xml
            • /taobao_crawled-master/.idea/misc.xml
            • /taobao_crawled-master/.idea/modules.xml
            • /taobao_crawled-master/.idea/taobao_crawled-master.iml
            • /taobao_crawled-master/.idea/workspace.xml
        • /taobao_crawled-master/crawl_taobao.py
        • /taobao_crawled-master/ghostdriver.log
顶部客服微信二维码底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友