使用 robots.txt 控制搜索引擎对网站的访问和索引
由 lugir 于 星期二, 12/08/2009 - 23:32 发布
如果网站上有一些页面不想被别人从搜索引擎搜索到,我们可以通过编写 robots.txt 文档来对搜索引擎的行为进行控制。
robots.txt 是业界的标准,它让网站能够所有者控制搜索引擎访问他们的网站。通过定义 robots.txt 的内容,可以实现不同层次地控制访问,比如让搜索引擎只访问单个目录,特定类型的网页,或者某一网页。
有效地使用 robots.txt 能让你更好地控制对你的网站的搜索。
如何使用 robots.txt 文件控制搜索引擎对网站的访问和索引?
在网站根目录下创建一个 robots.txt 文档,将以下内容写入其中
User-Agent: Googlebot
Disallow: /logs/
User-Agent 行指明该文档只针对为 Googlebot,当然你也可以使用 User-Agent: *,这样所有主要搜索引擎都会阅读并遵循你放在 robots.txt 的规则。只要你愿意,还可以为不同的搜索引擎指定不同的规则。
Disallow 行告诉 Googlebot 不能访问和索引 logs 目录。这样一来,你放在logs目录中的内容将不会显示在谷歌搜索结果中。
更多关于 robots.txt 文档的语法和规则请访问 http://www.robotstxt.org/