wgetはrobots.txtのルールに従っていますが、それでもバイパスすることができます。今は自分で使ったシールド方法を共有しています:
1.任意のファイルをブロックする
.htaccess
1
2
3
4
5
6
|
SetEnvIfNoCase User-Agent "^wget" bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot
|
2.部分ファイルのダウンロードをブロックする
.htaccess
1
2
3
4
5
6
7
8
|
SetEnvIfNoCase User-Agent "^Wget" bad_bot
SetEnvIfNoCase User-Agent "^Wget/1.5.3" bad_bot
SetEnvIfNoCase User-Agent "^Wget/1.6" bad_bot
Order Allow,Deny
Allow from all
Deny from env=bad_bot
|
あなたに興味のある記事:
- Linuxのwgetコマンドの説明
- シミュレーションhttp https取得/送信要求(カールまたはwget)
- Linuxでのcurlコマンドとwgetコマンドの使用の紹介と比較
- 1日に1つのLinuxコマンド(61):詳細wgetコマンド
- Luaでの生のセットとrawgetの役割
- C言語はwgetのようなプログレスバー効果を実現
- PowerShellのヒントは、ファイルのダウンロードを達成するために(クラスwget)
- VBSはwgetを組み合わせてウェブサイトの画像をダウンロードする
- Windowsシステムの準備wget計画タスクスクリプト
- さまざまなオプションのカテゴリリストをダウンロードしてダウンロードする
- Dosはwget.exeを使用してウイルス対策ソフトウェアのアップグレードをより自動化する
- wget再帰的ミラーリングサイトを使用する
WeChatパブリックナンバー検索 “スクリプトホーム、注目を集める
プログラム、イベント、書籍の配信、その他のアクティビティがあなたを待っています