欢迎光临宜宾北斗网络科技有限责任公司! 收藏本站 [Ctrl+D] 保存到桌面 微博 微信

网站建设

搜索引擎基本工作原理

发布日期:2014-2-17 阅读次数:1452

有的同学做了很久的seo的工作,但是对于搜索引擎工作原理还是一知半解,正所谓知己知彼,方能百战不殆,反之我们就会在这条道路上走得很艰难,那么搜索引擎工作原理是什么呢?下面宜宾做网站的公司小编就来详细了解一下。

首先:建立索引

一、 百度分词
百度因为是中文搜索引擎从在中国的用户是*多的,它拥有强大的分析技术。一个字段可以拆分出许多的关键词,如同英文单词一样,拆分出来的词我们叫做单词。

二、 为什么要进行分词
中国的文字语言历史悠久,汉字多达9万左右,而常用的汉字也有4000左右,这些常用的汉字不用数量及规则进行随意组合,其结果已经达到天文数字,对于搜索引擎来说是不能很好的处理这些文字的。如果我们按相邻的词出现的频率来统计,就可以把这4000个常用汉字组合成8万左右个单字,虽然比单个汉字多了很多,但是易于搜索引擎的匹配。用户搜索词如果拆分为单词要明显比拆分为单字的数量少,如果是文档的话,拆分成单词也比单字数量要少的多。这样搜索引擎只要拥有一个词库就可以完全处理用户的搜索。

三、 分词方法
搜索引擎是没有眼睛的,百度分词的具体实现办法是比较复杂的,但是原理还是比较简单的,有以下这三种分词的方法:

1、正向*大化匹配-从左向右拆分

2、反向*大化匹配-从右向左反向分词

3、双向*大化匹配-左右同时进行分词

四、 案例的分析
这里我们简单的讲到了百度分词方法,是让同学们了解百度会对文档和字段进行切分,避免大家在优化中出现关键词的堆积和重复;例如:留学_美国留学_留学费用_美国哈弗留学-品牌词_这个表示词段切分。

以上我们明显可以看到留学和美国留学这两个词,可以通过美国哈弗留学这个词进行拆分就能得到,所以注意这些关键词的堆砌。

*后:输出结果

用户在输入需要搜索的词后,百度会进行一系列复杂的分析,根据*终的结论在索引库中寻找与之*为匹配的网页,按照用户输入关键词所体现的需求及网页的优劣进行打分评估,并按照*终的分数进行排列,展现出结果。

百度的查询系统是直接面向客户的系统,响应用户的搜索,返回搜索结果。

并不是所有包含搜索词的已经被收录的页面都要进行一次相似度计算,特别的对于一些热门的搜索词,这个是非常费劲的;同时,搜索引擎是可以按照页面的链接权重来进行筛选,忽略掉链接权重值比较低的页面,优先链接权重值比较高的页面。

总结:从蜘蛛的爬取到输出搜索结果,期中经历一系列复杂的算法,SEO必须遵守百度分词的方法,合理控制我们网站的关键词布局,从而让搜索引擎更快、更好的来抓取我们的网页。


Copyright @ 2007-2015 版权所有:四川北斗网络科技有限公司 ALL Rights Reserved 蜀ICP备12006890号

友情链接:

宜宾抖音广告 |  宜宾小程序开发 |  宜宾微信朋友圈广告 |  宜宾网站建设公司 |  自贡网站建设 |  泸州网站制作 |  公墓管理系统开发 |  宜宾微信营销 |  宜宾做网站 |  微信扫条码价格录入 |  宜宾网站制作 |  宜宾软件开发 |  宜宾网站建设 |