常见问题
蜘蛛抓取文章页面全过程发布日期:2013-12-30 阅读次数:1245
大家都知道搜索引擎抓取文章的过程是一个非常复杂的过程,但是我们大致可以把他分成以下3个步骤,宜宾网页设计小编简称:三步走。 *步:搜索引擎蜘蛛把页面url抓取,获取页面的url存放在数据库。 第二步:程序对数据库中抓取来的内容进行内容提取,分词建立索引。 第三步:排名程序对数据库中索引调用,计算内容页面的相关性和权重值,然后按照一定的格式排列在用户搜索页。 小编详细的介绍这三个步骤: 1、搜索引擎又叫做蜘蛛、机器人,当蜘蛛发现一个页面时,服务员会返回页面的html代码。当搜索引擎爬取一个页面时一般都是首先访问网站的robots.txt协议,在明确网站管理设置的禁止抓取协议以后,才对页面进行抓取索引数据库。 2、搜索引擎蜘蛛抓取的时间是:定期抓取(根据每个搜索引擎蜘蛛的更新时间不一样而异)、增量抓取(在原有的页面上抓取更多的页面)、分类抓取(根据类目不同而抓取的时间不一样,例如新闻类的内容可以几个分钟抓取一次。) 3、蜘蛛程序对抓取存储在数据库内容的内容提取以及分词建立索引:为了避免重复抓取搜索引擎蜘蛛会建立一个数据库,在每次抓取页面的时候分别详细的记录页面的url,文件大小以及创建日期等。搜索引擎把抓取来的页面都存放在数据库中,数据库中的url来源大致有3种途径:搜索引擎蜘蛛爬取页面从html解析出来的url,如果没有访问过的url就把他放在待访问数据库,接着回按照重要性抓取更新的资源页面,如果检测到已经抓取收录的就会把他删了。人工手动写入的url,还有就是站长通过表格提交的url,每一个url都有一个特定的编号。然后对每个url对应的页面进行内容提取,切词分词相关性建立索引,当用户搜索这个词的时候,程序会根据页面的相关性,页面的权重进行合理的排序。
您可能感兴趣的话题做个网站要多少钱?如何做个自己的网站?建立网站的流程是什么? 什么是服务器?做个电子商务网站需要多少钱?营销型网站建设需要多少钱? 手机网站怎么做?网站维护一年多少钱?什么是网站备案?如何开淘宝店?
[2013-12-30]
蜘蛛抓取文章页面全过程 阅读:1245 次
|