网站上的内容总希望有人看,有搜索引擎或者索引服务收录。可是某些搜素引擎真让人受不了,它的机器人爬虫(蜘蛛,robot,spider,crawler,wanderer)可能会在每天的某个时段集中力量对你的网站进行地毯式访问,甚至不遵守 robots.txt 的声明。终于忍不住要对一些蜘蛛动手了,将它们屏蔽在了网站的大门口。
屏蔽一些不友好的蜘蛛
8
网站上的内容总希望有人看,有搜索引擎或者索引服务收录。可是某些搜素引擎真让人受不了,它的机器人爬虫(蜘蛛,robot,spider,crawler,wanderer)可能会在每天的某个时段集中力量对你的网站进行地毯式访问,甚至不遵守 robots.txt 的声明。终于忍不住要对一些蜘蛛动手了,将它们屏蔽在了网站的大门口。
Rewrite 是网页服务器程序的一个链接地址重写模块(Mod_Rewrite),可以按照正则表达式(Regular Expression)规则匹配内容,对符合条件的 URL 进行实时的改写。我这几天用它干了点儿“坏”事儿:屏蔽了一些我认为不友好的访问。
现在的垃圾评论真多。安装使用了 Akismet 这个 WordPress 垃圾评论拦截插件,每天都能在垃圾评论那里看到有很多条垃圾评论,然后自然再去点击“清空垃圾评论”。虽然并不是太费事,可是总感觉很不爽。于是我就用 .htaccess 来禁止发表过垃圾评论的 IP 使用 PHP 的 POST 和 PUT 方法。那么来自这些 IP 的访问者就没办法提交评论了。
在Apache服务器上,我们经常因为URL链接地址的SEO(搜索引擎优化)需要而改写URL形式。如WordPress里的永久链接(Permalinks)的实现就需要这样。利用的就是其Mod Rewrite模块的链接重写功能。链接重写采用的是正则表达式(Regular Expression)来定义匹配规则。下面是经常用到的一些语法规则的含义,我感觉就像是代数表达式。
为了提高链接的可读性,遵从网络惯例,昨天夜间将博客 http://cnzhx.net/wp/ 的链接更改为 http://cnzhx.net/blog/。如果您曾经转载或者引用本博客的内容,请将链接做相应更改!给您造成的不便,我们深表歉意!谢谢!