サイトアイコン ITC Media

matplotlibのscatterで散布図をマスターしよう!初心者向け完全ガイド

(最終更新月: 2024年11月)

✔こんな方におすすめの記事です

「Pythonで散布図を描きたいけど、どうすればいいかわからない」
「matplotlibのscatterの使い方を基礎から学びたい」
「散布図をもっとおしゃれに、見やすくしたい」

✔当記事を通じて得られること

当記事では、散布図の基本的な作成方法から応用的なカスタマイズまで、実例を交えて幅広く解説していきます。
ぜひ最後までご覧ください。

筆者プロフィール

【現職】プロダクトマネージャー

【副業】ブログ(月間20万PV)/YouTube/Web・アプリ制作

「プログラミング × ライティング × 営業」の経験を活かし、30後半からのIT系職へシフト。現在はプロダクトマネージャーとして、さまざまな関係者の間に入り奮闘してます。当サイトでは、実際に手を動かせるWebアプリの開発を通じて、プログラミングはもちろん、IT職に必要な情報を提供していきます。

【当ブログで紹介しているサイト】

当サイトチュートリアルで作成したデモ版日報アプリ

Django × Reactで開発したツール系Webアプリ

✔人に見せても恥ずかしくないコードを書こう

「リーダブルコード」は、わかりやすく良いコードの定義を教えてくれる本です。

  • 見るからにきれいなコードの書き方
  • コードの分割方法
  • 変数や関数の命名規則

エンジニアのスタンダートとすべき基準を一から解説しています。

何回も読むのに値する本なので、ぜひ手にとって読んでみてください。

matplotlib scatterとは?基本を理解しよう

matplotlibのscatterは、2つの変数の関係性を点で表現する散布図を作成する関数です。
データ分析や機械学習では、散布図が重要な役割を果たすため、基本をしっかり押さえておく必要があります。

scatterの基本概念

matplotlib.pyplot.scatterは、2次元平面上に点をプロットするための関数です。
データの分布や相関関係を視覚的に理解するのに最適な手法となっています。
以下は最もシンプルな散布図を作成する例です。

import matplotlib.pyplot as plt
import numpy as np

# データの準備
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 1, 5, 3])

# 散布図の作成
plt.scatter(x, y)
plt.show()

データ分析の現場では、2つの変数間の関係性を見るために頻繁に使用されるのです。

散布図を描く準備

散布図を描くには、まず必要なライブラリをインポートする必要があります。
Pythonの科学技術計算ライブラリであるNumpyと組み合わせることで、より効率的なデータ処理が可能になります。
以下のコードで環境を整えましょう。

# 必要なライブラリのインポート
import matplotlib.pyplot as plt
import numpy as np

# 日本語フォントの設定(必要な場合)
plt.rcParams['font.family'] = 'MS Gothic'

設定が完了したら、データの準備に移ることができます。

基本的な使い方

scatterの基本的な使い方は非常にシンプルです。
x軸とy軸のデータを用意し、scatter関数に渡すだけで散布図が作成できます。
以下で実践的な例を見ていきましょう。

# ランダムなデータの生成
np.random.seed(42)  # 再現性のため
x = np.random.rand(50) * 10
y = x * 2 + np.random.randn(50)

# 散布図の作成
plt.figure(figsize=(8, 6))  # グラフサイズの設定
plt.scatter(x, y)
plt.xlabel('X軸')  # x軸ラベル
plt.ylabel('Y軸')  # y軸ラベル
plt.title('基本的な散布図')  # タイトル
plt.grid(True)  # グリッドの表示
plt.show()

この例では、基本的なグラフの要素もあわせて設定しています。

散布図のカスタマイズ方法

散布図をより見やすく、情報量の多いものにするためには、適切なカスタマイズが重要です。
視覚的な効果を高めることで、データの持つ意味をより明確に伝えることができます。

マーカーのカスタマイズ

散布図のマーカー(点)は、様々な形状や大きさに変更できます。
データの種類や目的に応じて、適切なマーカーを選択することで、グラフの可読性が向上します。
以下のコードで、様々なマーカーの使い方を確認しましょう。

# データの準備
x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 4, 1, 5, 3])

# 異なるマーカーでの散布図
markers = ['o', 's', '^', 'D', 'v']
plt.figure(figsize=(12, 4))

for i, marker in enumerate(markers):
    plt.subplot(1, 5, i+1)
    plt.scatter(x, y, marker=marker)
    plt.title(f'マーカー: {marker}')

plt.tight_layout()
plt.show()

マーカーの種類は豊富で、目的に応じて使い分けることができます。

色の設定

散布図の色を適切に設定することで、データの特徴をより効果的に表現できます。
カラーマップを使用することで、データの第3の特徴も表現することが可能になります。
以下の例で、色の設定方法を見ていきましょう。

# データの準備
np.random.seed(42)
x = np.random.rand(100) * 10
y = np.random.rand(100) * 10
colors = np.random.rand(100)

# カラーマップを使用した散布図
plt.figure(figsize=(10, 6))
scatter = plt.scatter(x, y, c=colors, cmap='viridis')
plt.colorbar(scatter)
plt.title('カラーマップを使用した散布図')
plt.show()

色の選択は、データの性質や目的に合わせて慎重に行う必要があります。

サイズの調整

散布図のポイントサイズを変更することで、データの重要性や第3の変数を表現できます。
サイズの設定には、sパラメータを使用します。
以下のコードで、サイズ調整の方法を確認しましょう。

# データの準備
np.random.seed(42)
x = np.random.rand(50) * 10
y = x * 2 + np.random.randn(50)
sizes = np.random.rand(50) * 500  # サイズの配列

plt.figure(figsize=(10, 6))
plt.scatter(x, y, s=sizes, alpha=0.5)
plt.title('サイズの異なる散布図')
plt.xlabel('X軸')
plt.ylabel('Y軸')
plt.show()

このように、ポイントのサイズを変えることで、データの重要度や特徴を視覚的に表現できるのです。

実践的な散布図の作成

実際のデータ分析では、より複雑な散布図を作成する必要があります。
ここでは、実践的な使用例を通じて、散布図の応用的な作成方法を学んでいきましょう。

複数データの表示

異なるグループのデータを1つの散布図に表示することで、グループ間の比較が容易になります。
それぞれのグループに異なる色やマーカーを使用することで、視覚的な区別が可能です。
以下のコードで、複数のデータセットを表示する方法を見てみましょう。

# データの準備
np.random.seed(42)
x1 = np.random.rand(30) * 10
y1 = x1 * 2 + np.random.randn(30)
x2 = np.random.rand(30) * 10
y2 = x2 * 0.5 + np.random.randn(30)

plt.figure(figsize=(10, 6))
plt.scatter(x1, y1, c='blue', label='グループ1')
plt.scatter(x2, y2, c='red', label='グループ2')
plt.legend()
plt.title('複数グループの散布図')
plt.xlabel('X軸')
plt.ylabel('Y軸')
plt.grid(True)
plt.show()

このように、複数のデータセットを効果的に表示することができます。

凡例の追加

凡例は、散布図の各要素が何を表しているのかを説明する重要な要素です。
適切な凡例を追加することで、グラフの理解が格段に向上します。
以下の例で、詳細な凡例の追加方法を確認しましょう。

# データの準備
np.random.seed(42)
x = np.random.rand(100) * 10
y = x * 2 + np.random.randn(100)
categories = np.random.choice(['A', 'B', 'C'], size=100)

plt.figure(figsize=(10, 6))
for category in ['A', 'B', 'C']:
    mask = categories == category
    plt.scatter(x[mask], y[mask], label=f'カテゴリ {category}')

plt.legend(loc='upper left', bbox_to_anchor=(1, 1))
plt.title('カテゴリ別の散布図')
plt.tight_layout()
plt.show()

凡例の位置やスタイルを調整することで、より見やすいグラフを作成できます。

相関係数の表示

散布図に相関係数を表示することで、変数間の関係性をより明確に示せます。
NumPyを使用して相関係数を計算し、テキストとして追加します。
以下のコードで、相関係数の表示方法を学びましょう。

# データの準備
np.random.seed(42)
x = np.random.rand(50) * 10
y = x * 2 + np.random.randn(50)

# 相関係数の計算
correlation = np.corrcoef(x, y)[0, 1]

plt.figure(figsize=(10, 6))
plt.scatter(x, y)
plt.text(0.05, 0.95, f'相関係数: {correlation:.2f}', 
         transform=plt.gca().transAxes)
plt.title('相関係数を表示した散布図')
plt.show()

相関係数を表示することで、データの関係性を数値で確認できます。

応用テクニック

より高度な可視化を実現するために、いくつかの応用テクニックを紹介します。
これらのテクニックを使いこなすことで、プロフェッショナルな散布図を作成できます。

回帰直線の追加

散布図に回帰直線を追加することで、データの傾向をより明確に示すことができます。
NumPyのpolyfit関数を使用して、簡単に回帰直線を描画できます。
以下のコードで、回帰直線の追加方法を確認しましょう。

# データの準備
np.random.seed(42)
x = np.random.rand(50) * 10
y = x * 2 + np.random.randn(50)

# 回帰直線の計算
z = np.polyfit(x, y, 1)
p = np.poly1d(z)

plt.figure(figsize=(10, 6))
plt.scatter(x, y, alpha=0.5)
plt.plot(x, p(x), "r--", alpha=0.8, label=f'y = {z[0]:.2f}x + {z[1]:.2f}')
plt.legend()
plt.title('回帰直線を追加した散布図')
plt.show()

回帰直線により、データの全体的な傾向を視覚的に把握できます。

信頼区間の表示

散布図に信頼区間を追加することで、データの不確実性を表現できます。
scipyを使用して信頼区間を計算し、表示します。
以下のコードで実装方法を見ていきましょう。

from scipy import stats

# データの準備
np.random.seed(42)
x = np.random.rand(50) * 10
y = x * 2 + np.random.randn(50)

# 信頼区間の計算
slope, intercept, r_value, p_value, std_err = stats.linregress(x, y)
y_pred = slope * x + intercept

# 信頼区間の計算
confidence = 0.95
degrees_of_freedom = len(x) - 2
t_value = stats.t.ppf((1 + confidence) / 2, degrees_of_freedom)
sigma = np.sqrt(np.sum((y - y_pred) ** 2) / degrees_of_freedom)
se = sigma * np.sqrt(1/len(x) + (x - np.mean(x))**2 / np.sum((x - np.mean(x))**2))
ci = t_value * se

plt.figure(figsize=(10, 6))
plt.scatter(x, y, alpha=0.5)
plt.plot(x, y_pred, 'r-', label='回帰直線')
plt.fill_between(x, y_pred - ci, y_pred + ci, alpha=0.2, color='r', label='95%信頼区間')
plt.legend()
plt.title('信頼区間を表示した散布図')
plt.show()

信頼区間を表示することで、予測の不確実性を視覚的に理解できます。

まとめ

当記事では、matplotlibのscatterを使った散布図の作成方法について学習してきました。

これらの知識を活用することで、より効果的なデータの可視化が可能になります。
実際のプロジェクトでぜひ散布図を活用し、データの持つ意味を明確に伝えていきましょう。
今回学んだテクニックを組み合わせることで、さらに魅力的な可視化を実現できます。

モバイルバージョンを終了