模拟谷歌蜘蛛抓取网页的工具

近期谷歌官方在webmaster tools里发布了一个新工具叫做Fetch as Googlebot,中文意思就是模拟谷歌机器人抓取网页。首先让我们了解下什么叫抓取?大家知道网页能否被搜索引擎收录首先一步是看搜索引擎蜘蛛能否抓取你的网页,也就是说这些Bot程序是不是能登陆到你的网页上,并且是不是在阅读你网页的内容。Bot程序和一般浏览者看同一个网页是不一样的,浏览者看一个网页就如同你现在看BOSON这篇文章一样,图文并茂,色彩斑斓,段落清楚。而对于Bot程序而言,它看的是你这些华丽视觉后的代码,因为网页是由网页代码编写出来的,所以后台的代码决定了搜索引擎对你网站的了解。因此,我们就会出现这样的一个问题,我在幕前看到的内容是不是和幕后的一样呢?答案其实很难说,或许大部分网页在没有被黑客过之前的确是这样,保留原有的风貌。但是随着网络黑客的盛行与SEO黑帽的涌入,许多网页正在可意或是非可意地被改变他们后台的代码,目的就是为了让搜索引擎看到更想看到的东西,比如说某个关键字的堆砌或是为某个网站加一个黑链接。通常像这样的手段,对搜索引擎中的巡回机器人显示出与普通阅览者不同内容的网页,英文叫做clocking。这样的手法会严重影响到网页的排名甚至会被搜索引擎处罚,谷歌也是为了预防这样的行为,而出现了Fetch as Googlebot,用户可以在webmaster里对自己网页的某个地址做测试(如下图),测试出来的记录就是模仿谷歌蜘蛛抓取页面的结果,随后到被测试的网页打开源文件代码,目的就是和谷歌测试出来的结果做比较。是不是两者代码中多了什么?如果有这样的问题那就必须审视起来了。

fetch as googlebot

fetch as googlebot

模拟谷歌蜘蛛抓取网页的工具》上有 1 条评论

评论已关闭。