经发现,虽然wget遵循 robots.txt 规则,但是那个还是可以绕过去,现在把我自己使用的屏蔽方法分享给大家:
1. 屏蔽下载任何文件
.htaccess
1
2
3
4
5
6
|
SetEnvIfNoCase User-Agent "^wget" bad_bot
Order Allow,Deny Allow from all Deny from env=bad_bot
|
2. 屏蔽下载部分文件
.htaccess
1
2
3
4
5
6
7
8
|
SetEnvIfNoCase User-Agent "^Wget" bad_bot SetEnvIfNoCase User-Agent "^Wget/1.5.3" bad_bot SetEnvIfNoCase User-Agent "^Wget/1.6" bad_bot
Order Allow,Deny Allow from all Deny from env=bad_bot
|
您可能感兴趣的文章:
微信公众号搜索 “ 脚本之家 ” ,选择关注
程序猿的那些事、送书等活动等着你