竞价学习
竞价交流

搜索引擎蜘蛛的工作原理和工作流程

2017年06月14日  浏览次数:

搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也叫机器人(bot)。

一、搜索引擎蜘蛛的基本原理

搜索引擎蜘蛛Spider,是一个很形象的名字,把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。

网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。

如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。

因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

二、追踪链接

由于搜索引擎蜘蛛为了能够抓取网上尽量多的页面,它会追踪网页上的链接,从一个页面爬到下一个页面,就好像是蜘蛛在蜘蛛网上爬行那样,这就是搜索引擎蜘蛛这个名称的来因。

整个互联网网站都是相互链接组成的,也就是说,搜索引擎蜘蛛从任何一个页面出发最终都会爬完所有页面。

三、搜索引擎蜘蛛工作中的信息收集

信息收集模块包括“蜘蛛控制”和“网络蜘蛛”两部分,“蜘蛛”这个称呼形象的描述除了信息收集模块在网络数据形成的“web”上进行信息获取的功能。

总体而言,网络蜘蛛从种子网页出发,通过反复下载网页并从文档中寻找未曾见过的URL,达到访问其他网页得以遍历WEb的目的。

 

上一篇:创意优化技巧
下一篇:按钮位置,操作按钮的尺寸,颜色,对比