搜索, 搜索引擎, 索引, 引擎, 抓取
搜索引擎抓取流程是如何运行的? 第一步:搜索引擎抓取互联网的网页。 咱们把搜索引擎抓取网页的网站程序叫做“蜘蛛”或者“机器人”,“百度蜘蛛”和“google机器人”就是指的百度、谷歌的爬取网站程序。 搜索引擎蜘蛛会按照您的URL进行爬取。当搜索蜘蛛爬取一个网页的时候如果看到一个新的URL就会顺着这个URL爬下去。他会把爬取的内容返回到搜索引擎的索引网站数据库。 蜘蛛的主要作用就是爬取,蜘蛛爬取的是网站站点网站程序的具体代码如下,而不是咱们大多数人认为的网页内容。 第二步:网站程序爬取的内容返回到索引网站数据库。 索引网站数据库对网页信息进行处理(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。网页分析之后,会对网页进行评价。如果是网上重复度太多的内容,索引网站数据库则舍弃这个网页。这就是平时咱们遇到自己的文章被搜索引擎收录了很多,但是过一段时间后,有降低的原因之一。 每个被收录的网站站点都会在搜索引擎的索引网站数据库中有相应的储存,咱们在可以直接看到的就是百度快照(谷歌cached)。搜索引擎是按照他的索引网站数据库上的信息对网站站点进行排序的。索引网站数据库中还包含每个网站站点的导入链接,导出链接等信息。 第三步:索引网站数据库中排序。 当用户输入一个关键词或者是一句话的时候。他会对用户输入的关键词进行分词(SE自己的分词算法)。然后在索引网站数据库中进行相应的关键词排序结果输出。 一般情况下搜索引擎会把获得的用户输入的关键词分为以下三种。 |
盘点网站关键词排名下降的原因有哪些