站长, 自己, 控制, 搜索, 搜索引擎
搜索引擎很多时候,站长想让搜索引擎收录您的网站站点却偏偏不收录,而不让搜索引擎收录的页面又要收录,这问题一直困扰着站长,今天来名站网址导航论坛建站网站程序主讲由站长自己控制搜索引擎访问和索引网站站点的网站站点,我经常被问到Google(谷歌)和搜索引擎是怎样运转的。一个核心问题是:谷歌是怎样知道一个网站站点的哪些部分是网站站点所有者想让它们显示在搜索结果中?网站站点内容发布者能够指定部分网站站点不被搜索吗?好消息是,网站站点内容发布者可以使用很多具体的方法控制您们的网页在搜索结果中的显示。 文件robots.txt是这里的主角,该文件已经成为业界标准好多年了。它让一个网站站点所有者控制搜索引擎访问他们的网站站点。您可以用robots.txt不同层次地控制访问,比如让搜索引擎只访问整个网站站点,单个目录,特定类型的网页,或者某一网页。有效地使用robots.txt能让您更好地控制对您的网站站点的搜索,但是如何达到这一目标不是很显而易见的。这是咱们关于如何使用robots.txt来控制对您的网站站点的存取的一系列帖子的第一篇。 文件robots.txt有什么用? 互联网真的很大。您只是不相信它是怎样地无穷无尽地大。您也许认为维护网站站点耗费好多精力,但是那只是“网海一粟”。(对DouglasAdams致以诚挚的道歉) 象谷歌这样的搜索引擎会读取所有信息并对这些信息索引,索引是为了让一个搜索引擎对一些用户查询显示与之相匹配的网页。 为了做到这一点谷歌的一些电脑不断抓取网站站点,他们有一个谷歌所知道的所有网站站点的名单,他们阅读每个网站站点的所有网页。所有这些机器被称为谣Googlebot。一般来说,您是愿意让Googlebot访问您的网站站点,这样您的网页才可以被人们在谷歌搜到。 然而,对您的网站站点上的某几页,您可能不想让谷歌索引。举例来说,您可能有一个目录包含内部日志,或者您可能有些新闻文章只能在支付费用后才能访问。您可以通过创建一个文本文件名为robots.txt的文件并把它放置在根目录下来告诉谷歌爬虫不要去抓取他们。文件robots.txt包含了一个搜索引擎不能访问的页面的清单。创建一个robots.txt是直截了当的,它允许您用一套精密分层控制搜索引擎对您网站站点的访问。 精细控制 除了robots.txt文件让您为您的一大堆文件简洁明了给出指令外,您也可以利用robotsMETA标签来精确控制对您的单个网页的访问。为了做到这一点,您只需要对您的HTML网页添加特定的META标签来控制怎样对单个网页索引。归而总之,robots.txt和META标签让您更灵活地表达复杂的访问规定变得比较容易。 一个简单的例子 这里是一个简单的例子,它是一个robots.txt文件。 User-Agent:Googlebot Disallow:/logs/ User-Agent行指明下面部分的一套指令只是为Googlebot。所有主要搜索引擎都阅读并听从您放在robots.txt的指令。只要您愿意,您可以为不同的搜索引擎指定不同的规则。Disallow行告诉Googlebot不能进入您网站站点的档案日志子目录。您放在日志目录中的内容将不会显示在谷歌搜索结果中。 禁止访问单个文件 如果您有一篇只有注册用户才能访问的文章,您一定想让它排除在谷歌的结果之外。为了做到这一点,您只需要在该文章对应的HTML文件中添加一个META标签。该文件的具体代码如下的最开始有点像: <html> <head> <metaname="googlebot"content="noindex"> ... 这段具体代码如下会阻止谷歌索引此文件。标签META特别有用,如果您只被允许编辑单个文件,而不是全站的robots.txt。他们还允许您逐页地指定复杂的访问控制规定。 了解更多 您可以在http://www.robotstxt.org/和谷歌的站长帮助中心找到更多有关robots.txt的更多有用信息,包括: 如何构造一个robots.txt文件 对谷歌使用的每个User-agent的描述 如何使用模式匹配 要多久咱们才重新抓取您的robots.txt文件? 咱们也在咱们的站长博客里写了一些关于robots.txt的帖子,也许对您有用。例如: 使用robots.txt文件 Googlebot汇总 搜索引擎 , 网站站点 , 禁止收录 |
360不兼容还有什么浏览器可使用