常见问题
做SEO的搜索引擎工作原理发布日期:2013-11-15 阅读次数:797
随着互联网的不断发展,搜索引擎的出现是必然的。犹如,图书馆里的书一样,收藏的文件、书籍多了,查找起来就会出现困难,就需加强管理与统计,实际上,搜索的很大程度上都来源于传统文件检索技术。 宜宾企业建站小编作为SEOer都应该知道,搜索引擎的工作原理过程是非常复杂的,其工作过程大体分为三个阶段: (1)爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码,并存入数据库; (2)预处理:索引程序通过对抓取的数据进行文字提取、中文分词、索引等处理。以备排名程序调用; (3)排名:用户输入关键词后,排名程序调用数据库,计算其相关性,然后按一定格式生成搜索结果页面。 作为爬行和抓取是搜索引擎的*步骤,主要完成数据的搜集任务;然而搜索引擎用来爬行和用于访问页面的程序被统称为蜘蛛或机器人;为了抓取网上更多的页面,蜘蛛会跟踪页面上的链接,从一个页面爬行到下一个或多个页面,就如蜘蛛这个名词的含义一样,整个互联网是有很多相互链接的网站和页面构成;因此,蜘蛛从任何一个页面出发,都可以顺着链接爬行网站上所有页面。其中,蜘蛛的爬行策略也有常见的两种:深度优化、广度优化,如图一所示:做优化的大家都知道用户体验度尤为重要,那吸引蜘蛛也是一样的;无论从它的爬行或者抓取页面,它所期待的也是网站的新鲜度、内容的更新频率、网站和页面的权重、导入链接的多少等。搜索引擎的地址库也是我们需要去了解的,地址库的来源可以分为三种:人工录入种子网站、蜘蛛自动抓取页面、站长通过搜索引擎页面提交表格进来的网址,想要网站排名的好,其中蜘蛛自动抓取页面是*好的方法。 图一 蜘蛛的爬行策略 想必蜘蛛爬行抓取过后接下来的是后台完成预处理,这是用户搜索时感觉不到的过程。现在搜索引擎还是以文字内容为基础,蜘蛛抓取页面中的HTML代码进行提取文字,这点可看出,页面中无论是在加META标签、图片、flash文件、链接锚文本时都应加上文字来描述,以达到蜘蛛能读取相应的文字来抓取图片等。从而,搜索引擎储存和处理页面时都是以词为基础的,因此中文分词也有两种基本方法:一种是基于词典匹配,另外一种是基于统计,在这两点上很大程度百度搜索比谷歌搜索好的多。搜索引擎在索引页面时会去掉一些停止词,停止词包括助词得、的、地,感叹词啊、哈、呀,副词或介词从而、已、却;从而减少多余的计算量。接下来是消除噪声和去重,在网站上大量重复出现的区块往往属于噪声;同一篇文章重复出现在不同网站或者同一网站的不同网址上,搜索引擎是不喜欢重复性内容。 作为*后一个步骤排名,经过搜索引擎自动抓取的页面,索引程序计算得到倒排索引后,搜索引擎就可以处理用户搜索了。简单的可以这样理解其他的工作程序与预处理相反;预处理是如何存取文字和分词、索引的,排名就是如何调用数据库的数据进行计算排名的。
您可能感兴趣的话题做个网站要多少钱?如何做个自己的网站?建立网站的流程是什么? 什么是服务器?做个电子商务网站需要多少钱?营销型网站建设需要多少钱? 手机网站怎么做?网站维护一年多少钱?什么是网站备案?如何开淘宝店?
[2014-4-7]
搜索引擎的在乎与不在乎 阅读:1672 次
[2014-4-4]
总结:影响网页在搜索引擎排名的四大因素 阅读:1553 次
[2014-3-27]
如何确定网站是否受用户以及搜索引擎青睐? 阅读:1662 次
[2014-3-26]
搜索引擎营销“嫌贫爱富”吗? 阅读:1469 次
[2014-3-25]
了解搜索引擎的工作原理的重要性 阅读:1534 次
[2014-3-12]
搜索引擎优化新手如何快速上手进入角色 阅读:2230 次
[2014-3-11]
搜索引擎进化论:从“技术的极客”到“人性的快捷”再到? 阅读:1650 次
[2014-3-4]
网站如何去服务于搜索引擎 阅读:1540 次
[2014-2-17]
搜索引擎基本工作原理 阅读:1446 次
[2014-2-14]
由情人节谈你在搜索引擎心目中的位置 阅读:1411 次
|