这是由于 Google 常日可以找到您网站上的所有主要页面并将其编入索引。
而且他们会自动不索引不主要的页面或其他页面的重复版本。
也便是说,您想要利用 robots.*** 文件的紧张缘故原由有 3 个。

阻挡非公共页面:有时您的网站上有您不想编入索引的页面。例如,您可能有一个页面的暂存版本。或登录页面。这些页面须要存在。但是您不肯望随机的人降落在他们身上。在这种情形下,您会利用 robots.*** 来阻挡搜索引擎抓取工具和机器人访问这些页面。
最大化抓取预算:如果您很难将所有页面编入索引,则您可能碰着了抓取预算问题。通过利用 robots.*** 阻挡不主要的页面,Googlebot 可以将更多的抓取预算花在真正主要的页面上。
防止资源索引:利用元指令与 Robots.*** 一样可以防止页面被索引。但是,元指令不适用于多媒体资源,例如 PDF 和图像。这便是 robots.*** 发挥浸染的地方。
底线?Robots.*** 见告搜索引擎蜘蛛不要抓取您网站上的特定页面。
您可以在Google Search Console中查看已编入索引的页面数量。
如果该数字与您要编入索引的页数相匹配,则无需费心利用 Robots.*** 文件。
但是,如果该数字高于您的预期(并且您把稳到不应被索引的索引 URL),那么就该为您的网站创建一个 robots.*** 文件了。
最佳实践创建一个 Robots.*** 文件您的第一步是实际创建您的 robots.*** 文件。
作为一个文本文件,您实际上可以利用 Windows 记事本创建一个。
而且无论您终极如何制作 robots.*** 文件,其格式都完备相同:
用户代理:X不许可:Y
用户代理是您正在与之交谈的特定机器人。
“不许可”之后的所有内容都是您要阻挡的页面或部分。
这是一个例子:
用户代理:googlebot不许可:/images
此规则会见告 Googlebot 不要索引您网站的图像文件夹。
您还可以利用星号 () 与停在您网站的所有机器人对话。
这是一个例子:
用户代理:不许可:/images
“”见告所有蜘蛛不要抓取您的图像文件夹。
这只是利用 robots.*** 文件的浩瀚方法之一。这份来自 Google 的有用指南供应了更多信息,您可以利用不同的规则来阻挡或许可机器人抓取您网站的不同页面。
使您的 Robots.*** 文件易于查找
一旦您有了 robots.*** 文件,就可以让它生效了。
从技能上讲,您可以将 robots.*** 文件放在站点的任何主目录中。
但是为了增加找到您的 robots.*** 文件的几率,我建议将其放置在:
https://example.com/robots.***
(请把稳,您的 robots.*** 文件区分大小写。因此请确保在文件名中利用小写字母“r”)
检讨缺点和缺点精确设置 robots.*** 文件非常主要。一个缺点,您的全体网站可能会被取消索引。
幸运的是,您不须要希望您的代码设置精确。Google 有一个俊秀的机器人测试工具,您可以利用它:
它会向您显示您的 robots.*** 文件……以及它创造的任何缺点和警告:
如您所见,我们阻挡蜘蛛抓取我们的 WP 管理页面。
我们还利用 robots.*** 来阻挡抓取 WordPress 自动天生的标签页(以限定重复内容)。
Robots.*** 与元指令当您可以利用“ noindex ”元标记在页面级别阻挡页面时,为什么还要利用 robots.*** ?
正如我之条件到的,noindex 标签很难在***和 PDF 等多媒体资源上实现。
此外,如果您有数千个要阻挡的页面,有时利用 robots.*** 阻挡该站点的全体部分比手动向每个页面添加 noindex 标记更随意马虎。
还有一些极度情形,您不想在 Google 上岸带有 noindex 标签的页面上摧残浪费蹂躏任何抓取预算。
那说:
在这三种极度情形之外,我建议利用元指令而不是 robots.***。它们更随意马虎履行。并且发生灾害的可能性较小(例如阻挡全体站点)。
理解更多理解 robots.*** 文件:关于他们如何利用和解释 robots.*** 的有用指南。
什么是 Robots.*** 文件?(SEO + Key Insight 概述):关于 robots.*** 不同用例的大略***。