对搜索引擎优化(SEO)稍有注意的人都知道 noindex nofollow 规则是告诉搜索引擎不要跟踪和索引有改则的链接和页面。而 WordPress 从 3.4 开始已经在带有参数 ?replytocom 的页面头部设置了 noindex 和 nofollow 属性。可是在百度的搜索结果中依然收录了很多带了 replytocom 参数的页面。
WordPress 里每个文章、页面都可以进行积极的讨论。一般的评论中都有个“回复”评论的链接。此链接的形式就是该文章的链接地址后面加上参数 ?replytocom=<评论 ID>
。因为点击此链接后几乎不会改变页面的内容而仅仅是设置评论框为回复模式,很多人认为这样的链接对于 SEO 没有好处而有坏处。关于怎么处理这个问题曾在 WordPress 开发讨论区有激烈的讨论(参考 ticket 10550)。
我能确定的是,至少在 WordPress 3.4 以后,在链接地址中带有 replytocom 参数的页面头部就已经有了 noindex nofollow 声明:
<meta name='robots' content='noindex,nofollow' />
今天当我再次检查 Google 和百度中收录的水景一页的带有 replytocom 参数的页面时,使用下面的搜索表达式:
inurl:replytocom site:cnzhx.net
Google 的搜索结果表示已经没有相关收录了;而百度的搜索结果显示还有不少这样的收录。
如果说百度反应比较迟钝,还没有清理完以前收录的带有 replytocom 参数的链接,那还情有可原。可是请注意上面的搜索结果截图,其中第二、第三条结果所对应的文章都是在升级 WordPress 3.4 之后才发布的。由此判断,百度蜘蛛可能并没有严格遵守相关规则。©
本文发表于水景一页。永久链接:<https://cnzhx.net/blog/baidu-and-noindex-nofollow/>。转载请保留此信息及相应链接。
只能通过robots来禁止爬了
我是准备放弃百度了。如果到年底其收录和搜索结果还不能统一的话就撤掉其统计功能,或者干脆禁止百度蜘蛛访问整个博客好了。不过到底要不要禁止,暂时还没拿定主意。
就像一网友说的,百度就是一垃圾。
有时robots.txt也无法禁止百度爬…
呵呵,百度是个流氓
前几天,百度在他的新闻首页天天都是头条说360怎样怎样,K站说是为了质量,其实不是人人都能竞价排名的。
说不好听点儿,百度和 360 互掐就是狗咬狗。要竞争,可以拼质量嘛。
K站有些时候是为了质量,更多的时候是为了自己的利益和某组织的利益。而且,为了质量其实不需要K站,只需要根据网页内容质量来安排网页的搜索排名即可自然淘汰那些垃圾站。不是说压根儿不k站,可是需要通过大量k站来保证质量只能说明其对文字的处理能力还不够。
你难道没有发现在百度上搜索,结果中排在前面的相当一部分都是垃圾站?
引用通告: robots.txt 也挡不住百度收录带 replytocom 的链接啊 | 水景微博
引用通告: 屏蔽一些不友好的蜘蛛 | 水景一页
确实是这样。我不想让baidu索引的页面,百度已然索引了。
百度就是个奇葩 :D
还有收录和排名,做法都是很奇葩,出人意料