EfficiencyPrPython

【IPアドレスのブロックを回避】Torを使ったスクレイピング方法を解説

Webサイトをスクレイピングする際、同じIPアドレスからリクエストし続けるとアクセスをブロックされることがあります。

処理の中にランダムな待機時間を入れて人が操作するかのようにアクセスしても、同じIPアドレスからリクエストすることには変わりないため、ブロックを回避する方法としては不十分です。

そこで今回はTorというサービスを利用します。

Torを使うことで、ユーザーはプロキシ経由でインターネットにアクセスできます。

「プロキシ」とはインターネットへの接続を代理で行うことです。

スクレイピングを基礎から学びたい人はこちらの書籍がおすすめ!

PC・タブレットで学習したい方はAmazonのKindle Unlimitedを利用するのもオススメ!!

\まずは無料で30日間お試し!!(無料期間中に解約可)/

Torのインストール

以下のページにアクセスします。

アクセスするとこのような画面になります。

スクロールすると、ダウンロードボタンがあるので選択します。

tor-win32-Version(0.4.7.10)のダウンロードが開始されれば成功です。

Torの設定

ダウンロードしたtor-win32-0.4.7.10.zipを任意の場所で解凍します。

コマンドプロンプトを開きます。

CDと入力して半角スペースを開けた後、解凍したフォルダの中にあるTORというフォルダをコマンドプロンプトまでドラッグし、Enterを押します。

tor.exeと入力し、Enterを押します。

Establishing a Tor circuitと表示されれば成功です。

Torの接続を確認

IPアドレスを表示して、Torの接続を確認します。

Torを使ってない状態

接続を確認するコードは以下のようになります。

自身のIPアドレスや住んでいる国などが表示されます。

Torを使っている状態

接続を確認するコードは以下のようになります。

Torを使うと別のIPアドレスが表示されます。

429エラーが出力される場合は接続ができていません。
アプリ(またはPC)を再起動して、もう一度お試しください。

まとめ

Torを使うと、IPアドレスを一定時間ごとに切り替えながらスクレイピングをすることができます。

非常に便利なサービスですが、スクレイピングは節度を守りながら行いましょう。

スクレイピングの基礎を学びたい方はこちら

コメント

タイトルとURLをコピーしました