robots.txt 也挡不住百度收录带 replytocom 的链接啊

之前发现百度并没有严格遵守 noindex nofollow 规则,收录了一些链接中带 replytocom 参数的页面。随后就在 robots.txt 中加入规则,禁止任何爬虫访问带 replytocom 参数的地址。已经在 Google Webmaster 中测试该规则有效。可是今天发现在更新 robots.txt 之后发表的文章 Matching Game ppt 制作还是被百度收录了带 replytocom 的链接。

robots.txt 也挡不住百度收录带 replytocom 的链接

robots.txt 也挡不住百度收录带 replytocom 的链接

薰衣草里的小虫子

去年就发现家里有一些黄褐色小虫子,半个米粒大小,可怎么也想不出是从哪里来的。今天终于发现原来是别人送的一袋薰衣草里生出来的。它们把封口的塑料袋咬破了飞出来的。幸好,这种小虫子似乎没什么危害——除了比较恼人之外。没有经过正确处理的这种自然的东西有时候也会让人受不了啊。目前还不知道是否有衣物受损。

薰衣草粉末+虫子+被虫子咬破的塑料袋

薰衣草粉末+虫子+被虫子咬破的塑料袋

百度收录的变化真奇特

前天使用 site 查询的时候,发现突然从 1360 条变成了只有 39 条,但是首页收录日期从半个月前(9月7日)变成了前一天。然后昨天变成 36 条,首页仍然是前一天。再到今天上午是 37 条,下午就变成了 1350 条,可是首页收录日期又变成了 9月7日。

唉,愚蠢无底线啊

有人说使用国外的 IP 访问 12306 订火车票不会遭遇网络繁忙,就想到使用自己的 VPS 代理来试试看。结果使用 SSH 代理去国外转转的时候却将自己的端口填错了,然后一直遭遇  FATAL ERROR: SSH connection was terminated unexpectedly 了。今儿个最愚蠢的事情莫过于此了。

小区开通联通光纤了

今天看到楼下的告示,小区开通联通的光纤宽带了。光纤到楼,网线到户。目前提供的是下行 50M 带宽(最小保证 30M);上行带宽限制最高 10M,没有最低保证。可是这一期的电信 ADSL 还有 7 个月才到期。纠结中……

360启用搜索新品牌和独立域名

360搜索今天启用了新品牌“360搜索+”,并启用独立域名 360sou.com 和 360so.com,首页中部分由谷歌、搜狗、即刻等第三方搜索服务商提供的服务也已消失不见。360搜索+目前提供的搜索类目仍然比较少,仅限于新闻、网页、视频和问答。对于多数独立博客关心的收录问题,目前 360搜索+ 似乎是故意不再提供 site 语法查询了。

此前曾有媒体猜测,360与搜狗在业务方面会开展合作。今日上线的360搜索+的输入框下面有一行小字“我想这是一段美好友谊的开始”指向搜索结果“卡萨布兰卡 我想这是一段美好友谊的开始”,或暗示将开展合作。

惊闻京东屏蔽一淘爬虫

在这样的时机屏蔽一淘获取京东商品价格,有打击报复之嫌啊。虽然平常很少用到一淘,可不得不承认它做得很棒。看来京东觉得自己够强大,不会被消费者忽略吧。

京东在网站robots.txt文件中加了一段代码屏蔽了一淘网的数据抓取爬虫。一淘网是一家电子商务比价网站,让用户同时比较多家电商的价格。一淘表示要采取反制措施让用户能了解价格真相,而京东表示一淘提供的有关京东方面数据公正性难以保证。在之前的8月15日电商大战中,一淘数据表明京东在价格战中欺骗消费者,降价商品数量很有限,而且大面积缺货,甚至有的商品是先涨价再降价。