【Python学習用アプリ(コピペ可)】PythonでPDFのテキストを読み取る(日本語対応)

※本サイトにはプロモーション・広告が含まれています。

こちらでは、日本語に対応したPDF読み取りモジュール、

pdfminer

をご紹介します

筆者プロフィール

筆者プロフィールアイコン

【現職】プロダクトマネージャー

【副業】ブログ(月間17万PV)/YouTube/Web・アプリ制作

「プログラミング × ライティング × 営業」の経験を活かし、30後半からのIT系職へシフト。当サイトでは、実際に手を動かせるWebアプリの開発を通じて、プログラミングはもちろん、IT職に必要な情報を提供していきます。

【当ブログで紹介しているサイト】

当サイトチュートリアルで作成したデモ版日報アプリ

Django × Reactで開発したツール系Webアプリ

✔人に見せても恥ずかしくないコードを書こう

「リーダブルコード」は、わかりやすく良いコードの定義を教えてくれる本です。

  • 見るからにきれいなコードの書き方
  • コードの分割方法
  • 変数や関数の命名規則

エンジニアのスタンダートとすべき基準を一から解説しています。

何回も読むのに値する本なので、ぜひ手にとって読んでみてください。

コード

$ ~/dev/itc-blog/venv/bin/pdf2txt.py ~/Desktop/sample.pdf > ~/Desktop/output.txt

解説

モジュールのインストール

上記のコードを実行するに当たり、インストールの必要が有ります

$ pip install pdfminer

すると、特定のフォルダに、pdf2txt.pyというファイルが作成されます

そのpdf2txt.pyを使い、pdfの読み取りをします

実行ファイルの特定

pdf2txt.pyの場所を特定するには、

linuxでは

$ which pdf2txt.py

Windowsでは、

$ where.exe pdf2txt.py

を実行し、ファイルパスを確認します

実行とアウトプット

下記の通り実行すると日本語表記も含めてpdfを読み取りテキストで返します

$ <pdf2txt.pyのファイルパス> <読み取りたいファイルのパス> >  <アウトプット用のファイルパス>

まとめ

以上で、日本語のPDFファイル読み取りを説明しました

pdfminerモジュールはまだ他にも使いみちがあるかと思います

詳しくは、

公式ドキュメント(こちら

もご覧頂きながら色々と試してみて下さい

本日もありがとうございました!

タイトルとURLをコピーしました