seo, 从业, 业者, 必须, 了解
搜索引擎工作原理一个SEO从业者应该了解的基础课程,但是有人却说搜索引擎工作原理对于新手来说是不容易理解的,因为工作原理太抽象,而且搜索引擎的变化无常,无论谁都不能真正认识搜索工作原理。 我想说的是无论搜索引擎怎样变化,大概的收录原理是不会变的: 1、找到网站站点的URL并下载页面。 2、判断页面质量是否达到收录标准收录页面,否则删除。 3、判断收录页面是否更新,更新页面快照。 以上三条是搜索引擎收录页面基本的规律,无论百度还是谷歌都不会违背。那么咱们就可以以以上三条作为依据详细的解释一下搜索引擎的工作原理。 首先搜索引擎的组成: 如图1所示:搜索引擎可以分为基本的五大部分,既抓取网页系统,数据分析系统,存储数据系统,缓存系统,展示系统。 1、抓取网页系统:分为探测系统和下载系统,探测系统就是咱们平常说的蜘蛛,蜘蛛在互联网上爬行时探测到一个网站站点的URL,就会把URL所指向的页面利用下载系统,下载到搜索引擎的网站站点的服务器上,然后将页面交给数据分析系统。 2、数据分析系统:分为数据分析和数据处理两个系统,当数据分析系统从抓取网页系统那获取到被下载的页面,首先进行数据分析去除不相关的文字或网站站点重复内容,进行页面文字的处理,然后对处理过后的页面内容进行判断,是否达到收录标准,达到交给存储系统,没有达到删除。 3、存储数据系统:将收录的页面进行保存,然后定时进行判断存储的页面是否有更新。 4、缓存系统:存储搜索引擎认为高价值的内容,当用户搜索某个关键词时经常看到收录量有几千万,但是搜索引擎显示的只有1000条,这也就是说只有1000条被放在了缓存系统上,用户可以最快速的查找到他们想要的内容。 5、展示系统:用户搜索返回到显示器上的信息。 这是搜索引擎的系统的组成,那么一个页面是如何被搜索引擎发现并收录的呢??? 图2,蜘蛛在整个互联网上爬行遇见您网站站点的一个URL,首先把URL提取出来根据网站站点权重和相关性插入到URL队列中,然后是判断您网站站点的这条URL是否能够解析成功,如果能解析成功,蜘蛛会爬到您网站站点,这里需要说一下,蜘蛛并不是直接去分析您网页的内容,而是去寻找您网站站点robots文件,根据您网站站点的robots规则判断是否抓取您这个页面,如果robots文件不存在,则会返回一个404错误,但是搜索引擎已经会继续抓取您的网站站点内容。 搜索引擎抓取了网页内容之后会对网页进行一个简单的判断是否达到了收录标准,如果不符合则继续把URL加入到URL 队列中,如果符合收录就会下载网页内容。 当搜索引擎拿到下载网页内容的时候,会提取出页面上的URL,继续插入到URL队列中,然后把页面上的数据,进行进一步分析,判断网页内容是否达到收录标准,如果达到收录标准则把页面存储到硬盘中。 当用户搜索某个关键词时,搜索引擎为了减少查询时间,将一部分相关性比较高的内容放到临时缓存区,大驾都知道从计算机的缓存中读取数据,比在硬盘中读取数据快很多。所以搜索引擎只将缓存中的一部分显示给用户。被存储在硬盘中的页面,搜索引擎会根据网站站点权重定时对其进判断是否有更新,是否达到了放入缓存区的标准,如果搜索引擎在判断是否有更新的同时发现网站站点页面被删除或网页达不到被收录的标准也会被删除。 |
信息时代行业传媒营销中优质青年