【初心者向け】Pythonの画像認識｜サンプルコード付きで徹底解説

（最終更新月：2023年6月）

✔このような方へ向けて書かれた記事となります

「Pythonで画像認識をどのように実装するのか知りたい」

「Pythonの画像認識ライブラリやフレームワークについて学びたい」

「Pythonの画像認識の応用例が見たい」

✔当記事を通じてお伝えすること

Pythonによる画像認識の基本概念
画像認識に適したPythonのライブラリやフレームワーク
Pythonを用いた画像認識の実例と応用

当記事では、Pythonを用いた画像認識の基本から、適切なライブラリやフレームワークの選択、実践的な応用例について具体的な説明を行っています。

ぜひ最後までご覧ください。

運営者プロフィール

現在はIT企業のプロダクトマネージャーとして、個人向け/社内向けシステムなど、複数のシステム開発・運営に携わっています。

Webサイト構築やECサイトの開発経験に加えて、PythonなどのプログラミングやSalesforceなどのクラウドアプリケーションに関する幅広い知識・経験を活かして「プログラミング初心者がスムーズに学べるサイト」を目指しています。

Githubでは、趣味で作成したアプリなどを公開しています。

https://github.com/Yulikepython/

✔人に見せても恥ずかしくないコードを書こう

「リーダブルコード」は、わかりやすく良いコードの定義を教えてくれる本です。

見るからにきれいなコードの書き方
コードの分割方法
変数や関数の命名規則

エンジニアのスタンダートとすべき基準を一から解説しています。

何回も読むのに値する本なので、ぜひ手にとって読んでみてください。

リーダブルコード ―より良いコードを書くためのシンプルで実践的なテクニック

created by Rinker

画像認識の基本

画像認識の基本的な概念と仕組みを理解することは、具体的な実装へと進む前に必要不可欠なステップです。

画像認識の定義
画像認識の種類
画像認識の仕組み
応用事例

画像認識の定義

画像認識（Image recognition）は、コンピュータビジョンの一分野で、デジタル画像内の特定のオブジェクト、パターン、特徴を自動的に検出して認識する技術です。

コンピュータは画像内の特定のオブジェクトや特徴を認識することで、それを他の情報処理タスクに利用できます。

画像認識の応用例として、以下のようなものがあります。

顔認識
文字認識
物体検出
手書き数字の識別
医療画像の解析
自動運転技術
セキュリティシステムや監視カメラの映像解析

画像認識の進歩により、自動化や効率化、安全性の向上などさまざまな領域での応用が期待されています。

画像認識の種類

画像認識の種類には、以下のようなものがあります。

項目名	説明	例
顔認識	画像内の顔を検出し、認識する	スマートフォンの顔ロックや顔認証システム
文字認識	文字や文字列を画像から検出し、識別する	自動車のナンバープレート認識、光学文字認識（OCR）
物体検出	画像内の特定の物体やオブジェクトを検出し、位置を特定する	自動運転車の障害物検知、セキュリティカメラの人物検出
手書き数字の識別	手書きの数字を識別する	銀行の小切手の自動読み取り、郵便番号の自動読み取り
医療画像解析	医療画像（MRI、CTスキャンなど）を解析し、疾患や異常を検出する	乳がんの早期検出、脳卒中の診断
自動車ナンバープレート認識	車のナンバープレートを検出し、認識する	駐車場の入出庫管理、交通違反の監視
地物認識	地物（建物、道路、風景など）を認識する	衛星画像の地物分類、AR（拡張現実）アプリの位置特定

これらは一部の例であり、画像認識の応用は非常に広範であり、さまざまな分野で利用されています。

画像認識の仕組み

画像認識は、コンピュータが画像データを解析し、画像内のオブジェクトや特徴を識別するプロセスです。

以下がその仕組みになります。

画像データの入力: まず、画像認識の対象となる画像データが入力されます。これはデジタル画像であり、ピクセルの配列として表現されます。
前処理: 入力された画像データは、必要に応じて前処理が行われます。これには、画像のサイズ変更、色空間の変換、ノイズの除去などが含まれます。前処理は、後続の処理のために画像を適切な形式に整えるために行われます。
特徴抽出: 画像から有用な情報を抽出するために、特徴抽出が行われます。特徴抽出は、画像内のパターン、形状、色、テクスチャなどの特徴を定量化するプロセスです。一般的な特徴抽出手法には、エッジ検出、角検出、ヒストグラム特徴、テクスチャ解析などがあります。
分類または識別: 抽出された特徴を基に、画像内のオブジェクトやパターンを分類または識別するアルゴリズムが適用されます。機械学習や深層学習の手法が一般的に使用されます。これにより、学習済みモデルや分類器を使用して、画像内のオブジェクトを識別することができます。
出力: 最終的な出力は、画像内に存在するオブジェクトや特徴の種類、位置、数量など、問題に応じて異なります。これは、テキスト情報や視覚的な表示、他の応用システムへのデータの統合など、さまざまな形式で表現されることがあります。

画像認識は、画像処理、パターン認識、機械学習、深層学習などの技術を組み合わせて実現されます。

応用事例

一般的な画像認識の応用事例をいくつかご紹介いたします。

タイトル	説明
顔認識	人物の顔を検出し、個々の顔を識別する技術。セキュリティシステムやソーシャルメディアの顔タグ付けなどに利用される。
自動運転	車両やドローンなどの自動化システムにおいて、道路や障害物の検出、信号認識、車両や歩行者の追跡などを行う。
医療画像解析	医療画像（X線、MRI、CTスキャンなど）の解析により、疾患の検出や診断支援を行う。
品質管理	製造工程での製品や部品の検査、欠陥の検出、異常の識別を行い、品質管理を支援する。
街頭監視	監視カメラの映像を解析して、異常な行動や事件の検出、犯罪の予防や捜査を支援する。
植物認識	植物の種類や状態を認識し、農業や環境モニタリングに活用する。
文字認識	印刷文字や手書き文字の認識を行い、光学文字認識（OCR）や手書き入力の支援などに利用される。
モーションキャプチャ	カメラやセンサーを使用して、人物やオブジェクトの動きを検出・追跡し、アニメーションやバーチャルリアリティに応用する。

PythonとOpenCVを利用した画像認識

PythonとOpenCVを使用することで、高度な画像認識システムを手軽に実装できます。

OpenCVの概要
OpenCVの機能
PythonとOpenCVを使用する理由

OpenCVの概要

OpenCV(Open Source Computer Vision Library)は、オープンソースのコンピュータビジョンと機械学習ソフトウェアライブラリです。

C++, Python, Javaなど複数のプログラミング言語をサポートしており、リアルタイム画像処理に対応しています。

OpenCVの機能

OpenCVには、以下のような機能が備わっています。

画像の読み込み・保存
画像の基本的な操作（フィルタリング、ジオメトリ変換、色空間の変換等）
画像の特徴点検出
記述子計算
マッチング
物体検出（顔検出等）

PythonとOpenCVを使用する理由

Pythonは、そのシンプルさと豊富なライブラリにより、画像認識の研究や開発に広く利用されています。

特にOpenCVは、高性能な画像処理と多様な機能を提供しているため、Pythonと組み合わせて使うことで、画像認識のためのコードを効率良く書けるのです。

import cv2

# 画像読み込み
image = cv2.imread('image.jpg')

# グレースケール変換
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 顔検出
face_cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')
faces = face_cascade.detectMultiScale(gray_image, scaleFactor=1.1, minNeighbors=5)

# 検出された顔を矩形で囲む
for (x, y, w, h) in faces:
    cv2.rectangle(image, (x, y), (x+w, y+h), (0, 255, 0), 2)

# 結果を表示
cv2.imshow('Image', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

環境構築

PythonとOpenCVの環境を構築する方法を解説します。

Pythonのインストール
OpenCVのインストール

Pythonのインストール

Pythonは公式サイトからダウンロードできます。

Pythonのバージョンは、最新のものを使用することを推奨しますが、特定のライブラリが対応していない場合は、そのライブラリの推奨するバージョンを使用してください。

OpenCVのインストール

PythonでOpenCVを使用するには、Python用のOpenCVパッケージをインストールする必要があります。

Pythonパッケージ管理システムのpipを使用して、コマンドラインから簡単にインストールが可能です。

Windowsでのインストール方法
Macでのインストール方法

Windowsでのインストール方法

WindowsでPythonとOpenCVをインストールするためには、以下の手順を実行します。

Pythonの公式サイトから最新版のPythonをダウンロードし、インストールします。
コマンドプロンプトを開き、pip install opencv-pythonコマンドを実行してOpenCVをインストールします。

Macでのインストール方法

MacでPythonとOpenCVをインストールするためには、以下の手順を実行します。

Homebrewを使用してPythonをインストールします。ターミナルを開き、brew install python3コマンドを実行します。
ターミナルからpip3 install opencv-pythonコマンドを実行してOpenCVをインストールします。

画像処理の基本操作

PythonとOpenCVを使用した画像処理の基本操作を解説します。

PythonとOpenCVで画像を読み込む方法
画像を加工する方法
画像の特徴を抽出する方法

PythonとOpenCVで画像を読み込む方法

PythonとOpenCVを用いて画像を読み込むには、OpenCVのimread関数を使用します。

以下に具体的なコードを示します。

import cv2

# 画像を読み込む
img = cv2.imread('path_to_your_image.png')

# 画像を表示する
cv2.imshow('image', img)
cv2.waitKey(0)
cv2.destroyAllWindows()

画像を加工する方法

OpenCVには画像を加工するためのさまざまな関数が提供されています。

例えば以下のようなものがあります。

画像の色空間を変換する：cvtColor関数
画像をリサイズする：resize関数
画像を回転させる：warpAffine関数

import cv2

# 画像読み込み
image = cv2.imread('image.jpg')

# 色空間を変換する（BGRからグレースケールへ）
gray_image = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 画像をリサイズする
resized_image = cv2.resize(image, (500, 500))

# 画像を回転させる
rotation_matrix = cv2.getRotationMatrix2D((image.shape[1] / 2, image.shape[0] / 2), 45, 1)
rotated_image = cv2.warpAffine(image, rotation_matrix, (image.shape[1], image.shape[0]))

# 変換結果の表示
cv2.imshow('Gray Image', gray_image)
cv2.imshow('Resized Image', resized_image)
cv2.imshow('Rotated Image', rotated_image)
cv2.waitKey(0)
cv2.destroyAllWindows()

画像の特徴を抽出する方法

画像から特徴を抽出するためには、以下を利用します。

画像のエッジを検出するCannyエッジ検出器
画像のコーナーを検出するHarrisコーナー検出器

特徴抽出は、画像認識の精度に大きく寄与します。

import cv2

# 画像読み込み
image = cv2.imread('image.jpg', 0)  # グレースケールで読み込み

# Cannyエッジ検出器を用いてエッジを検出
edges = cv2.Canny(image, 100, 200)

# Harrisコーナー検出器を用いてコーナーを検出
corners = cv2.cornerHarris(image, 2, 3, 0.04)

# 特徴抽出結果を表示
cv2.imshow('Edges', edges)
cv2.imshow('Corners', corners)
cv2.waitKey(0)
cv2.destroyAllWindows()

Pythonで実践する画像認識アルゴリズム

PythonとOpenCVを使用した具体的な画像認識アルゴリズムを紹介します。

クラシックアプローチ: カスケード分類器
深層学習アプローチ: 機械学習を使った画像認識

クラシックアプローチ: カスケード分類器

カスケード分類器は画像内の物体を検出するための効率的なアルゴリズムです。

主に顔検出などで使用されています。

カスケード分類器とは
カスケード分類器の作成手順

カスケード分類器とは

カスケード分類器は、特徴量のカスケード（連続）を使用して物体を検出します。

画像全体をスキャンし、画像の各領域が物体を含むかどうかを判断する機能です。

import cv2

# カスケード分類器の読み込み
cascade = cv2.CascadeClassifier('haarcascade_frontalface_default.xml')

# 画像読み込み
image = cv2.imread('image.jpg')

# グレースケールに変換
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# 顔検出
faces = cascade.detectMultiScale(gray, scaleFactor=1.1, minNeighbors=5, minSize=(30, 30))

# 検出された顔を矩形で囲む
for (x, y, w, h) in faces:
    cv2.rectangle(image, (x, y), (x+w, y+h), (0, 255, 0), 2)

# 結果を表示
cv2.imshow('Face Detection', image)
cv2.waitKey(0)
cv2.destroyAllWindows()

カスケード分類器の作成手順

カスケード分類器を作成するためには、以下の手順が必要です。

正例画像（物体が含まれる画像）と負例画像（物体が含まれない画像）の集合を用意
OpenCVのtraincascade関数を使用して、これらの画像から特徴量を学習し、分類器を作成

import cv2

# 正例画像のパスとアノテーションファイルのパス
positive_images_path = 'positive_images/'
positive_annotations_path = 'positive_annotations.txt'

# 負例画像のパス
negative_images_path = 'negative_images/'

# カスケード分類器のパラメータ
cascade_params = {
    'numStages': 10,      # 分類器のステージ数
    'minHitRate': 0.995,  # 正例画像の検出率の目標値
    'maxFalseAlarmRate': 0.5,  # 負例画像の誤検出率の上限値
    # 他のパラメータも設定可能
}

# カスケード分類器の作成
cascade = cv2.CascadeClassifier()
cascade.train(positive_images_path, positive_annotations_path, negative_images_path, cascade_params)
cascade.save('my_cascade.xml')

深層学習アプローチ: 機械学習を使った画像認識

ここでは、深層学習を用いた画像認識の基本的な手順を説明します。

深層学習が画像認識タスクで高い精度を達成し、理解が必須になるからです。

データの準備
ディープラーニングモデルの定義と構築
画像認識の実装

データの準備

深層学習を用いた画像認識のためには、まず大量の学習用データが必要です。

データは一般にラベル付けされ、各画像には対応するカテゴリまたはオブジェクトが割り当てられています。

データのクレンジングと前処理（リサイズ、正規化、データ拡張など）も、データ準備の重要なステップです。

ディープラーニングモデルの定義と構築

次に、ディープラーニングモデルを定義します。

畳み込みニューラルネットワーク（CNN）を使用しましょう。

モデルのアーキテクチャ（層の種類と数、層の接続方法など）を定義し、最適化アルゴリズムと損失関数を設定します。

画像認識の実装

モデルを訓練するためには、訓練データをモデルに供給し、各エポック（訓練データ全体を一度通過すること）での損失と精度を監視します。

訓練が終われば、テストデータでモデルのパフォーマンスを評価し、完了です。

おまけ: 文字の画像認識をPythonで実装する

Pythonで文字の画像認識を行うには、主にOCR（Optical Character Recognition）を用いることが一般的です。

PythonのライブラリであるTesseractを用いてOCRを実装してみましょう。

まずは必要なライブラリをインストールします。

ターミナルに以下のコマンドを入力してください。

pip install pytesseract opencv-python pillow

その後、以下のようなPythonスクリプトを作成します。

ここでは、image.pngというファイル名の画像から文字を認識しましょう。

import cv2
from PIL import Image
import pytesseract

# 画像の読み込み
image = cv2.imread('image.png')

# 画像の前処理
# グレースケールに変換
gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

# ノイズの除去
denoised = cv2.fastNlMeansDenoising(gray)

# OCRによる文字認識
text = pytesseract.image_to_string(Image.fromarray(denoised), lang='jpn')

print(text)

このスクリプトを実行すると、指定した画像に含まれる文字が出力されます。

ただし、TesseractのOCRは完全には正確さを保証できません。

読み込む画像のクオリティや文字の配置によっては、誤った認識をする可能性があります。

なお、上記のコードは日本語のOCRを想定しています。

他の言語の文字を認識する場合、langの引数を適宜変更してください。

例えば英語の場合はlang='eng'とします。

また、事前にTesseract OCRがインストールされている必要があります。

Tesseract OCRがまだインストールされていない場合は、公式のGitHubリポジトリ（https://github.com/tesseract-ocr/tessdoc）を参照してください。