Radio的gravatar头像
Radio 2015-10-18 00:56:40

如何分析爬虫进入到网站?

如果别人进入你的系统爬你们的数据,你如何知道?

所有回答列表(5)
acw2000的gravatar头像
acw2000  LV9 2015年10月19日

爬虫有ip的 记录到数据库就行了

德德豸的gravatar头像
德德豸  LV5 2015年10月19日

同求告知!

最代码官方的gravatar头像
最代码官方  LV167 2015年10月20日

合法的爬虫在http header中会有固定的标识,比如百度:Baiduspider,google:Googlebot,bing:bingbot,通过web server就可以知道,但是对于非法的就不一定了,你得通过分析log来确认,应为http header的user-agent是可以伪造的。

附上爬虫user-agent列表

百度爬虫
    * Baiduspider+(+http://www.baidu.com/search/spider.htm”)
google爬虫
    * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    * Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    * Googlebot/2.1 (+http://www.google.com/bot.html)
雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
    *Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
    *Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
新浪爱问爬虫
    *iaskspider/2.0(+http://iask.com/help/help_index.html”)
    *Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
搜狗爬虫
    *Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
    *Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
网易爬虫
    *Mozilla/5.0 (compatible; YodaoBot/1.0;http://www.yodao.com/help/webmaster/spider/;)
MSN爬虫
    *msnbot/1.0 (+http://search.msn.com/msnbot.htm)

wangdong01的gravatar头像
wangdong01  LV2 2015年10月20日

百度爬虫可以啊

Radio的gravatar头像
Radio  LV2 2018年2月5日

感谢各位提供的优质答案,我已找到解决办法

顶部 客服 微信二维码 底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友