您的位置 首页 网站建设

bing.com/bingbot.htm 是什么爬虫?

www.bing.com/bingbot.htm  正规的爬虫

今天看 花猫大叔的网络访问日志, 遇到一www.bing.com/bingbot.htm 这样的 记录

40.77.167.184 – – [24/Jun/2020:19:48:56 +0800] “GET /xmlsitemap.xml HTTP/1.1” 200 7416 “-” “Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”

标明访问者属性的User Agent是可以由软件进行修改的,所以有很多采集者为了防止自己被屏蔽,就把User Agent改为搜索引擎爬虫的特征,例如:

googlebot:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html(link is external))
baiduspider:mozilla/5.0 (compatible; baiduspider/2.0; +http://www.baidu.com/search/spider.html(link is external))

为了验证来访者User Agent是否假冒的搜索引擎爬虫,可以用host反查IP对应的主机名,官方说明:

Google:验证 Googlebot(link is external)
百度:百度spider介绍(link is external)

上次 猫叔说 Go-http-client/1.1 的时候不知道大家有没有印象, 如果没有看过“Go-http-client/1.1 是哪家的爬虫 这次终于知道了”  可以点击去了解一下

 

自2009 年11 月,Bing(必应) 团队就已开始忙于改进 Bing 的抓取机器人(也称爬虫),并且将在今年 10 月 1 日,新的Bing 机器人 Bingbot 将代替旧的 MSNbot 2.0b。

更新后的UA 将是:

Mozilla/5.0 (compatible; bingbot/2.0 +http://www.bing.com/bingbot.htm)

HTTP 头也将附带如下 FROM 信息:

From: bingbot(at)microsoft.com

另外,robots.txt 中涉及 msnbot 的规则仍将生效,不过 bingbot 和其他旧版微软搜索引擎机器人共存情况下,bingbot 规则优先生效

花猫大叔

关于花猫大叔短视频创业 作者: 花猫大叔

热门文章