为您的网站示例robots.txt文件

存储在您网站根目录中的robots.txt文件将告诉网络漫游器,例如搜索引擎蜘蛛,它们允许抓取哪些目录和文件。 使用robots.txt文件很容易,但还是应该记住一些事情:

  1. 黑帽网络机器人将忽略您的robots.txt文件。 最常见的类型是恶意软件机器人和寻找电子邮件地址收获的机器人。
  2. 一些新的程序员将编写忽略robots.txt文件的机器人。 这通常是错误的。
  1. 任何人都可以看到你的robots.txt文件。 他们总是被称为robots.txt,并始终存储在网站的根目录。
  2. 最后,如果有人链接到robots.txt文件排除的文件或目录,而该文件或目录不会被robots.txt文件排除的页面,那么搜索引擎无论如何都可能会找到它。

不要使用robots.txt文件来隐藏任何重要的东西。 相反,您应该将重要信息放在安全密码后面或完全离开网络。

如何使用这些示例文件

从样本中复制最接近您想要的样本的文本,并将其粘贴到您的robots.txt文件中。 更改机器人,目录和文件名以符合您的首选配置。

两个基本的robots.txt文件

用户代理: *
不允许: /

该文件表示,任何访问它的机器人(User-agent:*)都应该忽略站点上的每个页面(Disallow:/)。

用户代理: *
不允许:

这个文件说任何访问它的机器人(User-agent:*)都可以查看站点上的每个页面(Disallow:)。

您也可以通过将robots.txt文件留空或者根本没有网站来做到这一点。

保护机器人的特定目录

用户代理: *
Disallow:/ cgi-bin /
禁止:/ temp /

这个文件说任何访问它的机器人(User-agent:*)应该忽略目录/ cgi-bin /和/ temp /(Disallow:/ cgi-bin / Disallow:/ temp /)。

保护机器人的特定页面

用户代理: *
不允许:/jenns-stuff.htm
禁止:/private.php

这个文件说任何访问它的机器人(User-agent:*)应该忽略文件/jenns-stuff.htm和/private.php(Disallow:/jenns-stuff.htm Disallow:/private.php)。

防止特定的机器人访问您的网站

用户代理:Lycos / xx
不允许: /

这个文件说Lycos bot(User-agent:Lycos / xx)不允许访问站点的任何地方(Disallow:/)。

只允许一个特定的机器人访问

用户代理: *
不允许: /
用户代理:Googlebot
不允许:

这个文件首先不允许像我们上面所做的所有机器人,然后明确让Googlebot(User-agent:Googlebot)访问所有内容(Disallow:)。

合并多行以获得您想要的排除项

尽管最好使用一个非常具有包容性的User-agent行,比如User-agent:*,您可以根据自己的喜好进行选择。 请记住,机器人按顺序读取文件。 所以如果第一句话说所有的机器人都被阻塞了,然后在文件中说它允许所有的机器人访问所有的东西,机器人将可以访问所有的东西。

如果您不确定自己是否正确编写了robots.txt文件,则可以使用Google的网站管理员工具检查robots.txt文件或编写一个新文件。