蜘蛛抓去过，但页面内容有改动的页面

huan9 · 发表于 2017-10-23 23:01:35

蜘蛛抓去过，但页面内容有改动的页面
网页搜集，其实就是大家常说的蜘蛛抓取网页。那么对于蜘蛛（google称之为机器人）来说，他们感兴趣的页面分为三类：
1.蜘蛛从未抓去过的新页面。
2.蜘蛛抓去过，但页面内容有改动的页面。
3.蜘蛛抓取过，但现在已删除了的页面。
那么如何行之有效的发现这三类页面并进行抓取，就是spider程序设计的初衷与目的。那么这里就涉及到一个问题，蜘蛛抓取的起始点。
每一位站长只要你的网站没有被严重降权，那么通过网站后台的服务器，你都可以发现勤劳的蜘蛛光顾你的站点，但是你们有没有想过从编写程序的角度上来说，蜘蛛是怎么来的呢？针对于此，各方有各方的观点。有一种说法，说蜘蛛的抓取是从种子站（或叫高权重站），依照权重由高至低逐层出发的。另一种说法蜘蛛爬在URL集合中是没有明显先后顺序的，搜索引擎会根据你网站内容更新的规律，自动计算出何时是爬取你网站的最佳时机，然后进行抓取。
其实对于不同的搜索引擎，其抓取出发点定然会有所区别，针对于百度，Mr.Zhao较为倾向于后者。在百度官方博客发布的《索引页链接补全机制的一种办法》一文中，其明确指出“spider会尽量探测网页的发布周期，以合理的频率来检查网页”，由此我们可以推断，在百度的索引库中，针对每个URL集合，其都计算出适合其的抓取时间以及一系列参数，然后对相应站点进行抓取。
在这里，我要说明一下，就是针对百度来说，site的数值并非是蜘蛛已抓取你页面的数值。比如site:，所得出的数值并不是大家常说的百度收录数值，想查询具体的百度收录量应该在百度提供的站长工具里查询索引数量。那么site是什么？这个我会在今后的文章中为大家讲解。

		自动登录	找回密码
密码			立即注册