分辨百度、谷歌、必应、DuckDuckGo蜘蛛

前言

建站以来,查看网络日志,发现有大量爬虫访问,其中有搜索引擎的爬虫,也有第三方信息收集公司的爬虫,也有些个人搞的公司的爬虫,记录此博文来总结如何分辨爬虫,以及通过日志分析得出的一些基本的SEO优化策略。如果想要拦截非法爬虫,请看保护网站安全——拦截非法爬虫

分析

真百度蜘蛛

从我网站正式建立开始后半个月左右,百度蜘蛛第一次来访,请求robots.txt。值得注意的是,百度并没有用Baiduspider/2.0的User-Agent来访,而是以Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36这个User-Agent来访,在日志中查询一下此User-Agent,发现特异性还是很强的,没有其他的访问者伪造为此User-Agent,所以这个User-Agent也可以成为判断百度蜘蛛的一个技巧。请求完robots.txt之后,便对网站根目录进行请求,这次是用的Baiduspider/2.0的User-Agent,随后百度应该是分析了我主页的html,使用User-Agent: Baiduspider-render/2.0请求了我博客主题的字体(/usr/themes/xxx/xxx.woff),之后就是又再次请求了几次主页,随后本次爬取到此结束。这个阶段,使用site:domain指令在百度网页上查询无法查询到收录结果,推测百度在分析网站内容。

经历不到1个月之后,百度再次请求,依然和上次流程相同,不同的是百度使用User-Agent: Baiduspider-render/2.0解析了一些Ajax请求,因为当时我的主页中具体的文章摘要是使用Ajax.post动态渲染的,可见百度是可以解析javascript代码的,之后本阶段请求告一段落。

又过了半个月左右,百度再次来访,依旧使用Chrome的User-Agent头来请求robots.txt,请求后用Baiduspider/2.0请求主页。在百度上查询site:domain,发现主页以及收录。

假百度蜘蛛

分析日志时,发现了一些假百度蜘蛛,上图红框框住的都是假百度蜘蛛,他们的IP归属地都在非中国大陆地区,有些请求还带有十分奇怪的Referer,判断是否为真百度蜘蛛需要查询请求的IP地址,可以根据IP地址的rDNS记录来判断,rDNS为百度域名的为真,无rDNS或rDNS不为百度域名的为假。假百度蜘蛛没有伪造成上面说到的百度伪造的Chrome User-Agent头。

真谷歌蜘蛛

谷歌蜘蛛来访十分频繁,在此只展示节选,谷歌蜘蛛使用的User-Agent包含Googlebot/2.1或Googleother或Googlebot-Image/1.0,谷歌蜘蛛请求完主页后会分析html中的图片,对其中一些图片使用Googlebot-Image/1.0再次请求抓取。不同于百度,谷歌收录网页速度比较块,谷歌蜘蛛来访后不久就可以在谷歌上搜索到网站。

谷歌蜘蛛倾向于请求文件夹样式的URL而不是文件样式的URL,如上图。故最好讲伪静态设置为文件夹样式的URL即以/结尾。

假谷歌蜘蛛

我遇到的假谷歌蜘蛛的User-Agent头只有Googlebot,请求的URL也比较怪异,会请求一些不存在的URL。

必应蜘蛛

必应蜘蛛首次来访为网站建立半个月,使用bingbot/2.0的User-Agent头,请求完robots.txt后请求首页后不再来访。此时在必应上检索不到网站,此时应该是处于新网站考核期。

必应蜘蛛第二次来访位于整1个月之后,此次来访开始爬取网站文章,会优先爬取新发布的文章,爬取后可以在必应搜索上检索到。

没有遇到假必应蜘蛛。

DuckDuckGo蜘蛛

DuckDuckGo蜘蛛使用DuckDuckGo-Favicons-Bot/1.0来访。但结合DuckDuckGo收录结果来看,推测DuckDuckGo应是与微软Bing合作,因为发现很多其收录的页面并没有在服务器后台留下日志。

更换博客主题是否会影响SEO?

会的,虽然搜索引擎只看文本,但是更换主题等网页html代码变动十分巨大的情况下,我观察到是会影响到收录的,比较明显的就是在我更换完主题后必应直接将已收录的网页全部删除了,但是必应蜘蛛仍然继续来访。

总结

  • 网页链接最好使用文件夹样式的URL
  • 尽量不更换网站主题

发表评论