robots协议不生效怎么处理

45 0 0

大家有没有发现很多时候我们在robots文件中添加了禁止抓取的内容，但是还是被正常的收录了，这个就比较气人了有的人是不管怎么折腾就是不收录，有的人禁止抓取的内容尽然还在收录，没有对比就没有伤害！

那么为什么明明已经设正确设置的robots的屏蔽规则，但是就是不生效导致不该收录的内容被收录了呢？

robots更新周期

造成这一问题主要的原因，人心SEO认为主要还是在于robots的更新周期，搜索引擎每次抓取网站的内容的时候并不会每次都抓取下robots文件，因此很多时候站点更新了robots文件的规则了，但是搜索引擎并没有抓取最新的robots规则，还是会按照之前的规则进行抓取。

如何避免

首先网站搭建的时候就应该做好结构的规划，在网站上线的时候就应该完成robots文件的配置，避免后期去调整，是最有效的方法。但是在实际情况中很少有站点可以做到这一点，那么在robots文件规则发生变化的时候，要避免不该收录的内容被继续收录的问题，就需要及时通知搜索引擎站点更新了robots文件。

以百度搜索引擎为例子，百度搜索资源平台为站长们提供了相关的robots更新工具，在robots文件更新之后，可以前往这个工具进行更新，从而加快搜索引擎发现robots更新周期，如下图所示。

已收录内容如何处理

即使我们已经进行了robots规则更新，但是已经收录的内容，虽然在robots文件中进行了屏蔽，但是这些已收录的内容往往需要很长一段时间才会消失，甚至有可能长期不消失。

其实当我们最新版本的robots文件生效之后，新收录的内容会规则当前规则进行；但是已经收录的内容并不会马上消失，而是要等待之后的再次抓取的时候才会生效。然而不同的站点的已收录内容的抓取周期上的差距会很大，即使是同一个站点，不同内容的抓取更新周期也不一样。

如何加快已收录内容的删除

有时候一些已经被收录的内容，需要快速的让搜索引擎删除收录，仅仅靠robots文件进行屏蔽是做不到的。人心SEO在此分享一个简单高效的方法，那就是死链接提交。将误收录的页面状态码设为404，但如果页面仅仅只是不想被搜索引擎收录，但是还是允许被用户访问。

那么这个时候就不可以简单粗暴使用404页面，这个时候就可以通过后端根据客户端的user-agent判断当前访问如果是属于搜索引擎则返回404页面，其它的访问者则正常的访问。然后在搜索引擎提交死链，会比你单纯的等待robots文件生效的效果高很多。

文章版权归作者所有，未经允许请勿转载。

113

144

275

255

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...