百度,谷歌,搜狗等搜索引擎工作原理

魔王先生 网络推广 2年前 2922℃ 0
摘要:

网站seo优化(也叫seo网络推广、自然排名优化)这个工作是伴随着搜索引擎的发展而诞生的,像这种伴生的工作我们如果想做好,首先就要明白这些搜索引擎的工作原理,它是根据什么样的标准来判断一个网站在百度快...

网站seo优化(也叫seo网络推广、自然排名优化)这个工作是伴随着搜索引擎的发展而诞生的,像这种伴生的工作我们如果想做好,首先就要明白这些搜索引擎的工作原理,它是根据什么样的标准来判断一个网站在百度快照位置的顺利的,这对我们的seo优化工作开展是非常非常重要的!最近几期魔王先生就带大家了解一下这方面的知识。

互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做 “spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider 等。

Spider 抓取系统是搜索引擎数据来源的重要保证,如果把 web 理解为一个有向图,那么 spider 的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL 开始,通过页面上的超链接关系,不断的发现新 URL 并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型 spider 系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对 spider 过去抓取过的页面保持更新,维护一个 URL 库和页面库。

下图为 spider 抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns 解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。基本上所有的搜索引擎都是通过这种系统的通力合作完成对互联网页面的抓取工作的,区别只是细节的信息分类和索引筛选规则。

百度,谷歌,搜狗等搜索引擎工作原理

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。