搜索引擎蜘蛛（WebSpider）

搜索, 搜索引擎, 搜索引擎蜘蛛, 索引, 引擎

所谓搜索引擎蜘蛛（WebSpider），其实就是各搜索引擎的抓取网站程序，其他称谓有：机器人、爬行器、爬虫等。因为搜索引擎的抓取是通过链接到链接来实现的，整合起来就象一张巨大的蜘蛛网，所以这些爬行网站程序被通俗的解释为蜘蛛。

搜索引擎蜘蛛爬行网站站点首页从网站站点的robots文件开始，读取网站站点robots的规则后，开始爬行网站站点，通常是从网站站点首页开始，读取到网页的内容后，找到在网页中的其它链接地址，通过这些链接地址寻找下一个网页，这样一直循环下去。

对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,100亿网页的容量是100×2000G字节，即使能够存储，下载也存在问题（按照一台机器每秒下载20K计算，需要340台机器不停的下载一年时间，才能把所有网页下载完毕）。同时，由于数据量太大，在提供搜索时也会有效率方面的影响。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的页面，而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个具体的方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个具体的方法有个优点是蜘蛛在设计的时候比较容易。

目前主流搜索引擎蜘蛛的名字：

百度蜘蛛：baiduspider

google蜘蛛：googlebot

yahoo蜘蛛：slurp

soso蜘蛛：Sosospider

搜狗蜘蛛：Sogouwebspider

lexa蜘蛛：ia_archiver

必应蜘蛛：msnbot

有道蜘蛛：YodaoBot和OutfoxBot

其他还有一些常见的搜索引擎蜘蛛偶尔来访互联网那点事，而偶看比较少见到的蜘蛛DoCoMo Spider，这是日本NTT DoCoMo 旗下的搜索引擎。蜘蛛 , 搜索引擎

名站网址导航于 2020-7-22 20:56 移动 @版权声明名站网址导航声明： 1.该文观点仅代表作者本人，名站网址导航系信息发布平台，名站网址导航仅提供信息存储空间服务。 2.名站网址导航所发布的一切资源、破解补丁、注册机和注册信息及软件的解密分析文章等仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该网站程序，请支持正版软件，购买注册，得到更好的正版服务。 3.如有侵权请邮件与咱们联系删除或处理（邮箱：[email 988365@gmail.com]），本站将立即改正，谢谢。