【Python学習用アプリ(コピペ可)】PythonでPDFのテキストを読み取る(日本語対応)

scissorsPythonアプリ

以前ご紹介した、pyPDF2では、日本語の読み取りはできません

ですので、今回は日本語に対応したPDF読み取りモジュール、

pdfminer

をご紹介します

コード

$ ~/dev/itc-blog/venv/bin/pdf2txt.py ~/Desktop/sample.pdf > ~/Desktop/output.txt

解説

モジュールのインストール

上記のコードを実行するに当たり、インストールの必要が有ります

$ pip install pdfminer

すると、特定のフォルダに、pdf2txt.pyというファイルが作成されます

そのpdf2txt.pyを使い、pdfの読み取りをします

実行ファイルの特定

pdf2txt.pyの場所を特定するには、

linuxでは

$ which pdf2txt.py

Windowsでは、

$ where.exe pdf2txt.py

を実行し、ファイルパスを確認します

実行とアウトプット

下記の通り実行すると日本語表記も含めてpdfを読み取りテキストで返します

$ <pdf2txt.pyのファイルパス> <読み取りたいファイルのパス> >  <アウトプット用のファイルパス>

まとめ

以上で、日本語のPDFファイル読み取りを説明しました

pdfminerモジュールはまだ他にも使いみちがあるかと思います

詳しくは、

公式ドキュメント(こちら

もご覧頂きながら色々と試してみて下さい

本日もありがとうございました!

タイトルとURLをコピーしました