如何正确识别Baiduspider

凉白开 业界动态1 11,4114字数 1244阅读4分8秒阅读模式

经常听到有人抱怨百度蜘蛛爬的太频繁导致服务器被跑挂了,大部分情况下那些不是真的百度蜘蛛,而是一些采集站点来爬内容,这里替百度觉得冤。辨别爬虫是否是百度的,不单单看主机头,毕竟浏览器头信息是可以伪造的,一般我们通过DNS反向解析能更好的判断当前IP是否为真实的百度spider。

当然不能排除有些站点确实是被搜索引擎spider拖垮的,不过不能只抱怨爬虫,能被拖垮,说明自身做得不够好,检查下程序哪里有瓶颈,该优化的优化该加机器的加机器,如果你不是靠搜索引擎活下来的,那么你可以毫不犹豫的直接屏蔽搜索引擎。文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

想更好了解网站情况,可以加入百度站长(zhanzhang.baidu.com),可以设置索引压力、提交sitemap以及站点状况信息等等。文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

如下内容摘自百度站长,关于如何辨别真实百度spider的方法。文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

上周百度站长平台接到某站长求助,表示误封禁了Baiduspider的IP,询问是否有办法获得Baiduspider的所有IP,打算放入白名单加以保护,防止再次误封。在此要告诉各位站长,Baiduspider的IP池是不断变动的,我们无法提供IP全集。文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

除此之外,之前还有站长发来质疑说Baiduspider光顾过于频繁,已超越服务器承受能力。而百度站长平台追查发现,Baiduspider对该站点的抓取并无异常,那只spider极有可能是个李鬼。文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

那么,站长该如何通过IP来判断此spider是不是来自百度搜索引擎的呢?文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

可以通过DNS反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

1、在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

维日.jpg文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

2、在windows平台或者IBM OS/2平台下,您可以使用nslookup ip命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入nslookup xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以*.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

3、在mac os平台下,您可以使用dig 命令反解ip来 判断是否来自Baiduspider的抓取。打开命令处理器 输入dig xxx.xxx.xxx.xxx(IP地 址)就能解析ip, 来判断是否来自Baiduspider的抓取,Baiduspider的hostname以 *.baidu.com 或*.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

转自:http://zhanzhang.baidu.com/wiki/251文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/ 文章源自运维生存时间-https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/

weinxin
我的微信
微信公众号
扫一扫关注运维生存时间公众号,获取最新技术文章~
凉白开
  • 本文由 发表于 24/06/2014 01:00:17
  • 转载请务必保留本文链接:https://www.ttlsa.com/news/how-to-identify-real-baidu-spider/
  • Baiduspider
  • SPIDER
评论  1  访客  1
    • Star Brilliant
      Star Brilliant 9

      纠正一下,是 dig -x 反向解析,不加 -x 是正向解析。

    评论已关闭!