标签归档:蜘蛛抓取

百度蜘蛛爬取很守时

阅读数:1185 对最近3天网站日志做了下分析,主要是想看看百度蜘蛛和谷歌蜘蛛抓取网站的特性,以下是我的总结 测试页面:达闻官网首页 对于首页而言百度蜘蛛这几天来的时间点相对都是非常统一的,从下面图表可以看到底色一样的说明时间点相同。 百度蜘蛛更愿意在大家睡觉的时候爬取我们的首页 百度蜘蛛爬取整站时更喜欢页面多的栏目,谷歌蜘蛛爬取的范围更加广大 百度蜘蛛对同一个页面一天会爬取多次,谷歌则不是 百度蜘蛛对WP里的tag链接爬取会产生

X-Robots标签对谷歌蜘蛛有用

阅读数:2824或许这个不是很多人知道,谷歌在很早之前就有一个从主机端来控制noarchive, noindex,nofollow的标签X-Robots-Tag,这个标签的主要目的就是控制那些无法在页面Header里享用noindex等标签的内容,比如说PDF,DOC,JPG文件。因为很有可能有些网站不希望这些文件被谷歌收录,但又没有办法写在header里面,所以X-Robots-Tag就可以从主机端直接告诉谷歌蜘蛛哪些不要收录。 Example of X-Robots-Tag NoArchive Directive <Files ~ "\.html$"> Header append X-Robots-Tag "noarchive" </Files> Example of

博客收录之博客地址提交

阅读数:1503博客对于大部分人来讲都不陌生吧,其实对于我来讲接触博客的时间并不长,大概是08年的时候吧,因为我写作水平真的有限,而且错别字居多。刚开始对博客的认识是通过livespace,随后再是用自己域名并搭建以wordpress为系统的博客。如今的网络,需要博客这样一个东西去散发或是吸纳信息,这不仅对个人而言很值得,其实对各个企业或是需要搜索引擎网络营销的人来讲更加的重要。 博客是什么?说穿了就是发布文章的载体,通过博客内容的传播来让网

模拟谷歌蜘蛛抓取网页的工具

阅读数:3608近期谷歌官方在webmaster tools里发布了一个新工具叫做Fetch as Googlebot,中文意思就是模拟谷歌机器人抓取网页。首先让我们了解下什么叫抓取?大家知道网页能否被搜索引擎收录首先一步是看搜索引擎蜘蛛能否抓取你的网页,也就是说这些Bot程序是不是能登陆到你的网页上,并且是不是在阅读你网页的内容。Bot程序和一般浏览者看同一个网页是不一样的,浏览者看一个网页就如同你现在看BOSON这篇文章一样,图文并茂,色彩斑斓,段落清楚。而对于Bot程序