存储在您网站根目录中的robots.txt文件将告诉网络漫游器,例如搜索引擎蜘蛛,它们允许抓取哪些目录和文件。 使用robots.txt文件很容易,但还是应该记住一些事情:
- 黑帽网络机器人将忽略您的robots.txt文件。 最常见的类型是恶意软件机器人和寻找电子邮件地址收获的机器人。
- 一些新的程序员将编写忽略robots.txt文件的机器人。 这通常是错误的。
- 任何人都可以看到你的robots.txt文件。 他们总是被称为robots.txt,并始终存储在网站的根目录。
- 最后,如果有人链接到robots.txt文件排除的文件或目录,而该文件或目录不会被robots.txt文件排除的页面,那么搜索引擎无论如何都可能会找到它。
不要使用robots.txt文件来隐藏任何重要的东西。 相反,您应该将重要信息放在安全密码后面或完全离开网络。
如何使用这些示例文件
从样本中复制最接近您想要的样本的文本,并将其粘贴到您的robots.txt文件中。 更改机器人,目录和文件名以符合您的首选配置。
两个基本的robots.txt文件
用户代理: *
不允许: /
该文件表示,任何访问它的机器人(User-agent:*)都应该忽略站点上的每个页面(Disallow:/)。
用户代理: *
不允许:
这个文件说任何访问它的机器人(User-agent:*)都可以查看站点上的每个页面(Disallow:)。
您也可以通过将robots.txt文件留空或者根本没有网站来做到这一点。
保护机器人的特定目录
用户代理: *
Disallow:/ cgi-bin /
禁止:/ temp /
这个文件说任何访问它的机器人(User-agent:*)应该忽略目录/ cgi-bin /和/ temp /(Disallow:/ cgi-bin / Disallow:/ temp /)。
保护机器人的特定页面
用户代理: *
不允许:/jenns-stuff.htm
禁止:/private.php
这个文件说任何访问它的机器人(User-agent:*)应该忽略文件/jenns-stuff.htm和/private.php(Disallow:/jenns-stuff.htm Disallow:/private.php)。
防止特定的机器人访问您的网站
用户代理:Lycos / xx
不允许: /
这个文件说Lycos bot(User-agent:Lycos / xx)不允许访问站点的任何地方(Disallow:/)。
只允许一个特定的机器人访问
用户代理: *
不允许: /
用户代理:Googlebot
不允许:
这个文件首先不允许像我们上面所做的所有机器人,然后明确让Googlebot(User-agent:Googlebot)访问所有内容(Disallow:)。
合并多行以获得您想要的排除项
尽管最好使用一个非常具有包容性的User-agent行,比如User-agent:*,您可以根据自己的喜好进行选择。 请记住,机器人按顺序读取文件。 所以如果第一句话说所有的机器人都被阻塞了,然后在文件中说它允许所有的机器人访问所有的东西,机器人将可以访问所有的东西。
如果您不确定自己是否正确编写了robots.txt文件,则可以使用Google的网站管理员工具检查robots.txt文件或编写一个新文件。