Python 業務効率化

Python 画像処理

【Tesseract OCR】PythonでPDFの文字が抽出できる

Python

2022.02.262026.01.31

本記事は以下の動画で必要なTesseract・poppler・7zipのダウンロード方法について解説します。

サンプルPDF

サンプルコード

動画の内容はPythonとTesseract OCRを使って、PDF（スキャンデータ）から会社名を抽出し、その値を利用して会社ごとのPDFファイルを作成するという内容になっています。

OCR（光学的文字認識）とは下の画像のように、手書きや印刷された文字をイメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術です。

PythonはTesseractというOCRエンジンを使うことができるため、これを用いて資料の文字データを抽出します。（Tesseractは無料で使用することができます。）

Tesseractのインストール

まず始めにTesseractをダウンロードします。
https://github.com/UB-Mannheim/tesseract/wiki

お使いのパソコンによって32bitまたは64bit版をダウンロードしてください。

言語を選択して次に進みます。

次へ。

ライセンスを確認して次へ。

今回は自分しか使わないので、Install just for meを選択します。

Additional script dataを展開します。

２つにチェックを入れます。

次に、Additional language dataを展開します。

２つにチェックを入れて次に進みます。

インストールする場所を選択します。

そのままインストールを選択します。

インストールが開始されます。
終了したら次に進みます。

これでTesseractのインストールが完了です。

popplerのインストール

TesseractはPDFを文字認識することができないため、PDFファイルを一度画像ファイルに変換します。（最後にPDFファイルに戻す。）

画像の変換にはpdf2imageを使用しますが、popplerというコマンドラインツールをインストールする必要があります。

現在、popplerがダウンロードできたサイトが閉鎖されています。（代替案の執筆は少々お待ちください。）

任意のpopplerダウンロードします。

zip形式で圧縮されているため、解凍してください。

7zipというソフトを使って解凍することができます。
https://sevenzip.osdn.jp/download.html

ダウンロードが完了すると、ファイルを右クリックで7z形式の解凍ができるようになっています。

解凍すると４つのファイルがあります。

ディレクトリ（フォルダ）構造が下記になるように移動します。

これでpopplerのインストールが完了です。

おわりに

Pythonを使った社内DXの一例を紹介しました。
他にできることはこちらの動画にまとめていますので、興味のある方は是非ご確認ください。

関連記事
【Python】Ghostscriptを使ってPDFファイルを簡単に圧縮する方法

Python 基礎文法の教科書を執筆しました！

【図解】Python 基礎文法の教科書

本書は、これからPythonを学ぶ方や初学者の方でも無理なく勉強を進められるように、図解や画像を豊富に使って説明をしています。内容はPythonチュートリアル（公式のドキュメント）に準拠しているため、理解必須の部分をこの1冊ですべて網羅することができます。・プログラミング

コメント