## Tesseract OCRを使ったPDFファイルの一括リネーム

### 必要なライブラリをインポート

osとdatetimeのみ標準ライブラリ

In [1]:
import os
from pdf2image import convert_from_path
from PIL import Image
from PyPDF2 import PdfReader
import datetime
import pyocr

### pdf2imageを使ってPDFファイルを画像ファイルに変換

pdf2image:https://pdf2image.readthedocs.io/en/latest/reference.html#module-pdf2image.pdf2image

In [2]:
#選択したPDFファイルのページ数を取得
pdf_path = "sample.pdf"
pdf = PdfReader(pdf_path)
page_count = len(pdf.pages)

#画像を保存するフォルダを作成
img_save_path = "img_save"
os.makedirs(img_save_path, exist_ok = True)

#画像を保存する拡張子
out_format = 'png'

#popplerの格納場所
poppler_dir = r"poppler\bin"

#画像ファイルに変換
for i in range(page_count):

    image = convert_from_path(
            pdf_path = pdf_path,
            dpi = 300,
            first_page = i + 1,
            last_page = i+ 1,
            fmt= out_format,
            thread_count = 1,
            poppler_path = poppler_dir
        )
    out_image_path = img_save_path + "\img_" + str(i) + "." + out_format
    image[0].save(out_image_path)

### OCRを使ってファイルを一括リネーム

In [3]:
#pdfを保存するフォルダを作成
now = datetime.datetime.now()
date = now.strftime("%Y%m")
pdf_save_path = date
os.makedirs(pdf_save_path, exist_ok = True)

#tesseractの設定
pyocr.tesseract.TESSERACT_CMD = r'tesseract.exeのパスを指定してください'
tools = pyocr.get_available_tools()
tool = tools[0]

#OCR実行
for i in range(page_count):

    img_to_pdf=Image.open(img_save_path+"/img_"+str(i)+".png")

    builder = pyocr.builders.TextBuilder(tesseract_layout=6)
    text = tool.image_to_string(img_to_pdf,lang="jpn",builder=builder)
    print(text)
    
    #名前をつけるリストを作成
    name_list=["あいう","かきく","たちつ"]
    
    #pdfで保存
    for name in name_list:
        if name in text:
            img_to_pdf.save(pdf_save_path+"/"+name+".pdf")

請 求 書

サンプル株式会社 御中                                                軸            時
請求日      2022/4/30

下記のとおり、御請求申し上げます。                          あいう株式会社

件名        サンプルプロジェクト                                       〒100-0001
支払期限 04み47                                             東京都生代田区千代田1-1-1
振込先    サンプル銀行 本店 普通 1111111              サンプルビル3階
サンプル (カ                                    TEL : 03-0000-0000
担当: サンプル太郎
合計                154,000 円 (税込)

サンプル1                                                   1 式           10,000          10,000
サンプル2                                                   1 式           10,000          10,000
サンプル3                                                   1 式           10,000          10,000
サンプル4                                                   1 式           10,000          10,000
サンプル5                                                   1 式           10,000          10,000
サンプル6                                                   1 式           10,000         

### tesseract layout

Page segmentation modes:  
   0    Orientation and script detection (OSD) only.  
   1    Automatic page segmentation with OSD.  
   2    Automatic page segmentation, but no OSD, or OCR. (not implemented)  
   3    Fully automatic page segmentation, but no OSD. (Default)  
   4    Assume a single column of text of variable sizes.  
   5    Assume a single uniform block of vertically aligned text.  
   6    Assume a single uniform block of text.  
   7    Treat the image as a single text line.  
   8    Treat the image as a single word.  
   9    Treat the image as a single word in a circle.  
  10    Treat the image as a single character.  
  11    Sparse text. Find as much text as possible in no particular order.  
  12    Sparse text with OSD.  
  13    Raw line. Treat the image as a single text line,
        bypassing hacks that are Tesseract-specific.  