使用 robots.txt 控制搜索引擎对网站的访问和索引

由 lugir 于星期二, 12/08/2009 - 23:32 发布

　　如果网站上有一些页面不想被别人从搜索引擎搜索到，我们可以通过编写 robots.txt 文档来对搜索引擎的行为进行控制。

　　robots.txt 是业界的标准，它让网站能够所有者控制搜索引擎访问他们的网站。通过定义 robots.txt 的内容，可以实现不同层次地控制访问，比如让搜索引擎只访问单个目录，特定类型的网页，或者某一网页。

　　有效地使用 robots.txt 能让你更好地控制对你的网站的搜索。

如何使用 robots.txt 文件控制搜索引擎对网站的访问和索引？

在网站根目录下创建一个 robots.txt 文档，将以下内容写入其中
　　User-Agent: Googlebot
　　Disallow: /logs/

　　User-Agent 行指明该文档只针对为 Googlebot，当然你也可以使用 User-Agent: *，这样所有主要搜索引擎都会阅读并遵循你放在 robots.txt 的规则。只要你愿意，还可以为不同的搜索引擎指定不同的规则。
　　Disallow 行告诉 Googlebot 不能访问和索引 logs 目录。这样一来，你放在logs目录中的内容将不会显示在谷歌搜索结果中。

更多关于 robots.txt 文档的语法和规则请访问 http://www.robotstxt.org/

Lugir

Life is a gift