行业新闻

浅解搜索引擎对于网页抓取

作者:admin    来源:宁波seo    发布时间:2012-06-07    阅读:619次

    作为任何一个搜索引擎对于网络页面的抓取最基本的工作。搜索引擎给予用户的反馈排名也是以机遇网络上一个个网页为最基本的单位,如果一个搜索引擎抓取网页不及时、内容不充分,那么他所能提供给用户的反馈也是少之又少的,很难满足用户的需求。下面对于一些大型搜索引擎抓取原理进行介绍。

    我们在网络上浏览页面的时候,下载呈现在眼前基本需要1秒钟这样,搜索引擎所派遣出来的“浏览者”就是各自的网络蜘蛛(如站长们所熟知的Baiduspider、Googlebot)。那么他们是如何做到在有效的时间内,对于网络上高质量页面进行抓取。一般都是采用如下2种方式

   A:定期搜集:定期对于整个互联网上的页面进行搜索,例如先前的google曾是每隔一个月对于网络上的页面进行重新抓取审核。这样做的一个好处就是搜索抓取功能实现比较简单,对抓取系统要求不高,但是这样做的一个弊端就是互联网是实时更新的,定量搜集做不到最新最全的咨询反馈给用户。

   B:增量搜集: 增量搜集就是再事先抓取网页为根基,搜索互联网上最新出现的页面;搜索已经被收录的但是又更新过的页面;删除被收录的但是不存在的页面。结合http返回码如200、304、404等代码,蜘蛛可以迅速对于网页作出一个抓取的判断。

这种抓取方式虽然对于系统实现要求比较高的不仅仅是抓取这个方面,而且抓取之后建立一个索引也是比较的复杂,但是对于抓取网页的实时性、内容的丰富性做到很好。

对于大型的搜索引擎抓取而言这两种机制都会存在,以增量搜索为主,定期的现在已经不怎么常用了。

 

回到顶部