常见问题

做SEO的搜索引擎工作原理

发布日期：2013-11-15　阅读次数：843

随着互联网的不断发展，搜索引擎的出现是必然的。犹如，图书馆里的书一样，收藏的文件、书籍多了，查找起来就会出现困难，就需加强管理与统计，实际上，搜索的很大程度上都来源于传统文件检索技术。

宜宾企业建站小编作为SEOer都应该知道，搜索引擎的工作原理过程是非常复杂的，其工作过程大体分为三个阶段：

（1）爬行和抓取：搜索引擎蜘蛛通过跟踪链接访问网页，获得页面HTML代码，并存入数据库；

（2）预处理：索引程序通过对抓取的数据进行文字提取、中文分词、索引等处理。以备排名程序调用；

（3）排名：用户输入关键词后，排名程序调用数据库，计算其相关性，然后按一定格式生成搜索结果页面。

作为爬行和抓取是搜索引擎的*步骤，主要完成数据的搜集任务；然而搜索引擎用来爬行和用于访问页面的程序被统称为蜘蛛或机器人；为了抓取网上更多的页面，蜘蛛会跟踪页面上的链接，从一个页面爬行到下一个或多个页面，就如蜘蛛这个名词的含义一样，整个互联网是有很多相互链接的网站和页面构成；因此，蜘蛛从任何一个页面出发，都可以顺着链接爬行网站上所有页面。其中，蜘蛛的爬行策略也有常见的两种：深度优化、广度优化，如图一所示：做优化的大家都知道用户体验度尤为重要，那吸引蜘蛛也是一样的；无论从它的爬行或者抓取页面，它所期待的也是网站的新鲜度、内容的更新频率、网站和页面的权重、导入链接的多少等。搜索引擎的地址库也是我们需要去了解的，地址库的来源可以分为三种：人工录入种子网站、蜘蛛自动抓取页面、站长通过搜索引擎页面提交表格进来的网址，想要网站排名的好，其中蜘蛛自动抓取页面是*好的方法。

图一蜘蛛的爬行策略

想必蜘蛛爬行抓取过后接下来的是后台完成预处理，这是用户搜索时感觉不到的过程。现在搜索引擎还是以文字内容为基础，蜘蛛抓取页面中的HTML代码进行提取文字，这点可看出，页面中无论是在加META标签、图片、flash文件、链接锚文本时都应加上文字来描述，以达到蜘蛛能读取相应的文字来抓取图片等。从而，搜索引擎储存和处理页面时都是以词为基础的，因此中文分词也有两种基本方法：一种是基于词典匹配，另外一种是基于统计，在这两点上很大程度百度搜索比谷歌搜索好的多。搜索引擎在索引页面时会去掉一些停止词，停止词包括助词得、的、地，感叹词啊、哈、呀，副词或介词从而、已、却；从而减少多余的计算量。接下来是消除噪声和去重，在网站上大量重复出现的区块往往属于噪声；同一篇文章重复出现在不同网站或者同一网站的不同网址上，搜索引擎是不喜欢重复性内容。

作为*后一个步骤排名，经过搜索引擎自动抓取的页面，索引程序计算得到倒排索引后，搜索引擎就可以处理用户搜索了。简单的可以这样理解其他的工作程序与预处理相反；预处理是如何存取文字和分词、索引的，排名就是如何调用数据库的数据进行计算排名的。