【Python学習用アプリ(コピペ可)】PythonでPDFのテキストを読み取る（日本語対応）

こちらでは、日本語に対応したPDF読み取りモジュール、

pdfminer

をご紹介します

運営者プロフィール

現在はIT企業のプロダクトマネージャーとして、個人向け/社内向けシステムなど、複数のシステム開発・運営に携わっています。

Webサイト構築やECサイトの開発経験に加えて、PythonなどのプログラミングやSalesforceなどのクラウドアプリケーションに関する幅広い知識・経験を活かして「プログラミング初心者がスムーズに学べるサイト」を目指しています。

Githubでは、趣味で作成したアプリなどを公開しています。

✔人に見せても恥ずかしくないコードを書こう

「リーダブルコード」は、わかりやすく良いコードの定義を教えてくれる本です。

エンジニアのスタンダートとすべき基準を一から解説しています。

何回も読むのに値する本なので、ぜひ手にとって読んでみてください。

created by Rinker

コード

$ ~/dev/itc-blog/venv/bin/pdf2txt.py ~/Desktop/sample.pdf > ~/Desktop/output.txt

上記のコードを実行するに当たり、インストールの必要が有ります

$ pip install pdfminer

すると、特定のフォルダに、pdf2txt.pyというファイルが作成されます

そのpdf2txt.pyを使い、pdfの読み取りをします

pdf2txt.pyの場所を特定するには、

linuxでは

$ which pdf2txt.py

Windowsでは、

$ where.exe pdf2txt.py

を実行し、ファイルパスを確認します

下記の通り実行すると日本語表記も含めてpdfを読み取りテキストで返します

$ <pdf2txt.pyのファイルパス> <読み取りたいファイルのパス＞　> 　＜アウトプット用のファイルパス＞

以上で、日本語のPDFファイル読み取りを説明しました

pdfminerモジュールはまだ他にも使いみちがあるかと思います

詳しくは、

公式ドキュメント（こちら）

もご覧頂きながら色々と試してみて下さい

本日もありがとうございました！