您的位置 首页 网站建设

YandexBot 爬虫蜘蛛(俄罗斯一家搜索引擎)该不该屏蔽

今天看网络日志,发现一个YandexBot  这样的 的爬虫日志, 百度了一下, 是一家俄罗斯的搜索引擎,

Yandex蜘蛛大约每2-3天访问一次后端URL。我们没有在前端发布任何后端URL。

213.180.203.13 – – [29/Jun/2020:12:01:33 +0800] “GET /robots.txt HTTP/1.1” 200 371 “-” “Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”

213.180.203.13 – – [29/Jun/2020:12:01:37 +0800] “GET /xmlsitemap.xml HTTP/1.1” 200 7016 “-” “Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”

向这样的爬虫,做一个国内的博客, 应该屏蔽吗?

首先 应该查询IP地址

以查看它们是否为真实的Yandex IP地址。例如,查看我自己的访问日志,到目前为止,将其自身标识为Yandex的最常见IP地址是100.43.81.141,这证明是合法的。相比之下,104.238.95.146不是。

如果该这个爬虫 是合法的搜索引擎漫游器(仅此而已),他们将不会入侵您。如果没有,阻止用户代理将无济于事,他们只会使用另一个代理。

我想指出的是Yandex,以及其他搜索引擎一般而言,它们可能都不希望访问您的后端。请记住,机器人是通过跟踪链接来爬网的,所以想象一下,如果坏人将您后端的一些URL放在其他网站的页面中,而搜索引擎只是将这些页面编入索引,现在正尝试从那里跟踪这些链接。因此,看起来搜索引擎正在尝试访问您的后端-但它只是在爬网:它不知道它是您的后端。

类似的事情可能会偶然发生。可以说,一个非技术型用户在某个论坛上发布了一个url,该URL仅在您登录后才可以访问-通过爬网搜索引擎将尝试跟踪这些链接,最终您将像我以为那样看到日志。

 

 

花猫大叔总结了2020年抖音变现玩赚指南-进阶版的电子书 免费获取

链接: https://pan.baidu.com/s/1S7lF9AQAX2pdESlhF9Rl8Q

提取码:u8yv

 

花猫大叔

关于花猫大叔短视频创业 作者: 花猫大叔

热门文章