こちらでは、日本語に対応したPDF読み取りモジュール、
pdfminer
をご紹介します
コード
$ ~/dev/itc-blog/venv/bin/pdf2txt.py ~/Desktop/sample.pdf > ~/Desktop/output.txt
解説
モジュールのインストール
上記のコードを実行するに当たり、インストールの必要が有ります
$ pip install pdfminer
すると、特定のフォルダに、pdf2txt.pyというファイルが作成されます
そのpdf2txt.pyを使い、pdfの読み取りをします
実行ファイルの特定
pdf2txt.pyの場所を特定するには、
linuxでは
$ which pdf2txt.py
Windowsでは、
$ where.exe pdf2txt.py
を実行し、ファイルパスを確認します
実行とアウトプット
下記の通り実行すると日本語表記も含めてpdfを読み取りテキストで返します
$ <pdf2txt.pyのファイルパス> <読み取りたいファイルのパス> > <アウトプット用のファイルパス>
まとめ
以上で、日本語のPDFファイル読み取りを説明しました
pdfminerモジュールはまだ他にも使いみちがあるかと思います
詳しくは、
公式ドキュメント(こちら)
もご覧頂きながら色々と試してみて下さい
本日もありがとうございました!