谷歌的站长趋势剖析师 Gary Illyes 确认 robots.txt 无法保护网站免受未经授权的访问。
Google 的站长趋势剖析师Gary Illyes 证明了一个我们一贯以来都默认的意见,便是 robots.txt 对爬虫的未经授权访问的掌握力是有限的。Gary 随后讲述了所有 SEO 和网站所有者都该当知道的访问掌握。
微软 Bing 的 Fabrice Canel 在 Gary 的帖子下揭橥评论称,Bing碰着过一些网站考试测验用 robots.txt 隐蔽网站的一些敏感区域,但是很随意马虎无意中将敏感 URL 暴露给了黑客,给了黑客可乘之机。

Canel 评论道:
原文:
“Indeed, we and other search engines frequently encounter issues with websites that directly expose private content and attempt to conceal the security problem using robots.txt.”
译文:
“确实,我们和其他搜索引擎常常碰着一些网站直接暴露私密内容,然后试图通过 robots.txt 来粉饰网站的一些安全问题。”
关于Robots.txt 的一些争议每次利用Robots.txt的时候,总会有人指出它无法阻挡所有的爬虫程序,我便是个中一员。
在8月2号的时候,Gary本人赞许这个不雅观点:
原文:
“robots.txt can’t prevent unauthorized access to content”, a common argument popping up in discussions about robots.txt nowadays; yes, I paraphrased. This claim is true, however I don’t think anyone familiar with robots.txt has claimed otherwise.”
译文:
“robots.txt 无法阻挡对内容的未经授权访问”,这是近年来在关于 robots.txt 的谈论中常见的论点;是的,我进行了转述。这个说法是对的,但我认为任何理解 robots.txt 的人都不会说它能阻挡未经授权的访问。”
接下来,他深入阐明了拦截爬虫的真正含义。他认为拦截爬虫的过程便是选择一种固有掌握或让出掌握权给网站的办理方案。他将其定义为访问要求(浏览器或爬虫)和做事器以多种办法相应。
他列举了一些权限掌握的例子:
robots.txt(由爬虫程序决定是否抓取)。防火墙(WAF 又称 Web 运用程序防火墙 – 防火墙掌握访问)密码保护如果你要求者须要访问权限,则须要某种办法来进行身份验证,防火墙可能基于 IP 进行身份验证,你的Web 做事器可能基于通报给其 SSL/TLS 客户真个证书进行身份验证,或者你的 CMS 可能基于用户名和密码,然后是 1P cookie。但是robots.txt则是将访问资源的决定权交给要求者,实在并不屈安,也不是我们大多数站长想要的。
利用得当的工具来担保网站安全有很多方法可以阻挡爬虫、黑客攻击程序、搜索爬虫、AI 用户代理和搜索爬虫的访问。除了阻挡搜索爬虫之外,利用某种防火墙也是一个很好的办理方案,由于它们可以通过行为(如抓取频率)、IP 地址、用户代理和国家/地区等多种办法进行阻挡。
范例的办理方案可以用做事器级别的 Fail2Ban、基于云的 Cloudflare WAF 或 WordPress 安全插件 Wordfence。