【Python学習用アプリ(コピペ可)】PythonでPDFのテキストを読み取る（日本語対応）

こちらでは、日本語に対応したPDF読み取りモジュール、

pdfminer

をご紹介します

筆者プロフィール

【現職】プロダクトマネージャー

【副業】ブログ（月間20万PV）/YouTube/Web・アプリ制作

「プログラミング × ライティング × 営業」の経験を活かし、30後半からのIT系職へシフト。現在はプロダクトマネージャーとして、さまざまな関係者の間に入り奮闘してます。当サイトでは、実際に手を動かせるWebアプリの開発を通じて、プログラミングはもちろん、IT職に必要な情報を提供していきます。

【当ブログで紹介しているサイト】

当サイトチュートリアルで作成したデモ版日報アプリ

Django × Reactで開発したツール系Webアプリ

✔人に見せても恥ずかしくないコードを書こう

「リーダブルコード」は、わかりやすく良いコードの定義を教えてくれる本です。

見るからにきれいなコードの書き方
コードの分割方法
変数や関数の命名規則

エンジニアのスタンダートとすべき基準を一から解説しています。

何回も読むのに値する本なので、ぜひ手にとって読んでみてください。

リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック

created by Rinker

¥2,640 (2024/07/27 14:34:18時点 Amazon調べ-詳細)

コード

$ ~/dev/itc-blog/venv/bin/pdf2txt.py ~/Desktop/sample.pdf > ~/Desktop/output.txt

解説

モジュールのインストール

上記のコードを実行するに当たり、インストールの必要が有ります

$ pip install pdfminer

すると、特定のフォルダに、pdf2txt.pyというファイルが作成されます

そのpdf2txt.pyを使い、pdfの読み取りをします

実行ファイルの特定

pdf2txt.pyの場所を特定するには、

linuxでは

$ which pdf2txt.py

Windowsでは、

$ where.exe pdf2txt.py

を実行し、ファイルパスを確認します

実行とアウトプット

下記の通り実行すると日本語表記も含めてpdfを読み取りテキストで返します

$ <pdf2txt.pyのファイルパス> <読み取りたいファイルのパス＞　> 　＜アウトプット用のファイルパス＞

まとめ

以上で、日本語のPDFファイル読み取りを説明しました

pdfminerモジュールはまだ他にも使いみちがあるかと思います

詳しくは、

公式ドキュメント（こちら）

もご覧頂きながら色々と試してみて下さい

本日もありがとうございました！