PDFPython業務効率化

【Tesseract OCR】PythonでPDFの文字が抽出できる

当サイトは広告を利用しています。

本記事は以下の動画で必要なTesseract・poppler・7zipのダウンロード方法について解説します。

サンプルPDF

サンプルコード

動画の内容はPythonとTesseract OCRを使って、PDF(スキャンデータ)から会社名を抽出し、その値を利用して会社ごとのPDFファイルを作成するという内容になっています。

OCR(光学的文字認識)とは下の画像のように、手書きや印刷された文字をイメージスキャナやデジタルカメラによって読みとり、コンピュータが利用できるデジタルの文字コードに変換する技術です。

PythonはTesseractというOCRエンジンを使うことができるため、これを用いて資料の文字データを抽出します。(Tesseractは無料で使用することができます。)

Tesseractのインストール

まず始めにTesseractをダウンロードします。
https://github.com/UB-Mannheim/tesseract/wiki

お使いのパソコンによって32bitまたは64bit版をダウンロードしてください。

言語を選択して次に進みます。

次へ。

ライセンスを確認して次へ。

今回は自分しか使わないので、Install just for meを選択します。

Additional script dataを展開します。

2つにチェックを入れます。

次に、Additional language dataを展開します。

2つにチェックを入れて次に進みます。

インストールする場所を選択します。

そのままインストールを選択します。

インストールが開始されます。
終了したら次に進みます。

これでTesseractのインストールが完了です。

popplerのインストール

TesseractはPDFを文字認識することができないため、PDFファイルを一度画像ファイルに変換します。(最後にPDFファイルに戻す。)

画像の変換にはpdf2imageを使用しますが、popplerというコマンドラインツールをインストールする必要があります。

現在、popplerがダウンロードできたサイトが閉鎖されています。(代替案の執筆は少々お待ちください。)

任意のpopplerダウンロードします。

zip形式で圧縮されているため、解凍してください。

7zipというソフトを使って解凍することができます。
https://sevenzip.osdn.jp/download.html

ダウンロードが完了すると、ファイルを右クリックで7z形式の解凍ができるようになっています。


解凍すると4つのファイルがあります。

ディレクトリ(フォルダ)構造が下記になるように移動します。

これでpopplerのインストールが完了です。

おわりに

Pythonを使った社内DXの一例を紹介しました。
他にできることはこちらの動画にまとめていますので、興味のある方は是非ご確認ください。

関連記事
【Python】Ghostscriptを使ってPDFファイルを簡単に圧縮する方法

Python 基礎文法の教科書を執筆しました!

コメント

タイトルとURLをコピーしました