Webサイトをスクレイピングする際、同じIPアドレスからリクエストし続けるとアクセスをブロックされることがあります。
処理の中にランダムな待機時間を入れて人が操作するかのようにアクセスしても、同じIPアドレスからリクエストすることには変わりないため、ブロックを回避する方法としては不十分です。
そこで今回はTorというサービスを利用します。
Torを使うことで、ユーザーはプロキシ経由でインターネットにアクセスできます。
「プロキシ」とはインターネットへの接続を代理で行うことです。
スクレイピングを基礎から学びたい人はこちらの書籍がおすすめ!
PC・タブレットで学習したい方はAmazonのKindle Unlimitedを利用するのもオススメ!!
Torのインストール
以下のページにアクセスします。
アクセスするとこのような画面になります。
スクロールすると、ダウンロードボタンがあるので選択します。
tor-win32-Version(0.4.7.10)のダウンロードが開始されれば成功です。
Torの設定
ダウンロードしたtor-win32-0.4.7.10.zipを任意の場所で解凍します。
コマンドプロンプトを開きます。
CDと入力して半角スペースを開けた後、解凍したフォルダの中にあるTORというフォルダをコマンドプロンプトまでドラッグし、Enterを押します。
tor.exeと入力し、Enterを押します。
Establishing a Tor circuitと表示されれば成功です。
Torの接続を確認
IPアドレスを表示して、Torの接続を確認します。
Torを使ってない状態
接続を確認するコードは以下のようになります。
自身のIPアドレスや住んでいる国などが表示されます。
Torを使っている状態
接続を確認するコードは以下のようになります。
Torを使うと別のIPアドレスが表示されます。
まとめ
Torを使うと、IPアドレスを一定時間ごとに切り替えながらスクレイピングをすることができます。
非常に便利なサービスですが、スクレイピングは節度を守りながら行いましょう。
スクレイピングの基礎を学びたい方はこちら
Python 基礎文法の教科書を執筆しました!
コメント