サイトアイコン ITC Media

pandas applyを完全マスター!基礎から実践まで徹底解説

(最終更新月: 2024年11月)

✔こんな方におすすめの記事です

「pandasのapplyってどう使うの?」
「複雑な処理をデータフレームに適用したい」
「apply関数の使い方をマスターしたい」

✔当記事を通じて得られること

当記事では、pandas applyの基礎から応用まで、実例を交えて幅広く解説していきます。
ぜひ最後までご覧ください。

筆者プロフィール

【現職】プロダクトマネージャー

【副業】ブログ(月間20万PV)/YouTube/Web・アプリ制作

「プログラミング × ライティング × 営業」の経験を活かし、30後半からのIT系職へシフト。現在はプロダクトマネージャーとして、さまざまな関係者の間に入り奮闘してます。当サイトでは、実際に手を動かせるWebアプリの開発を通じて、プログラミングはもちろん、IT職に必要な情報を提供していきます。

【当ブログで紹介しているサイト】

当サイトチュートリアルで作成したデモ版日報アプリ

Django × Reactで開発したツール系Webアプリ

✔人に見せても恥ずかしくないコードを書こう

「リーダブルコード」は、わかりやすく良いコードの定義を教えてくれる本です。

  • 見るからにきれいなコードの書き方
  • コードの分割方法
  • 変数や関数の命名規則

エンジニアのスタンダートとすべき基準を一から解説しています。

何回も読むのに値する本なので、ぜひ手にとって読んでみてください。

pandas applyとは?

pandas applyは、DataFrameやSeriesに関数を適用するための強力な機能です。
複雑なデータ処理を効率的におこなうために、この機能の理解は非常に重要です。

applyの基本的な概念

pandas applyは、DataFrameやSeriesの各要素に対して関数を適用するメソッドです。
データの加工や変換を一括でおこなえるため、データ分析の現場で重宝されています。
以下に基本的な使用例を示します。

import pandas as pd

# サンプルデータの作成
df = pd.DataFrame({'数値': [1, 2, 3, 4, 5]})

# 2倍にする関数を定義
def multiply_by_two(x):
    return x * 2

# apply関数の適用
df['結果'] = df['数値'].apply(multiply_by_two)

applyが必要な理由

データ分析では、複雑な処理を大量のデータに適用する必要があります。
for文を使用する方法もありますが、処理速度が遅く、コードも煩雑になってしまいます。
applyを使用することで、以下のようなメリットが得られます。

applyのメリット・デメリット

applyには明確なメリットとデメリットがあります。
適切な使用場面を理解することで、より効率的なデータ処理が可能になるのです。
主なメリットは以下の通りです。

デメリットとしては次のような点があります。

Series.applyの基本的な使い方

Series.applyは、1次元のデータに対して関数を適用する手法です。
基本的な使い方を理解することで、データ処理の効率が大幅に向上します。

ラムダ関数との組み合わせ

ラムダ関数を使用すると、簡単な処理を一行で記述できます。
これにより、コードがより簡潔になり、可読性も向上するのです。
以下に具体例を示します。

# サンプルデータ
s = pd.Series([1, 2, 3, 4, 5])

# ラムダ関数を使用したapply
result = s.apply(lambda x: x * 2 if x > 2 else x)

複数の引数を持つ関数の適用

複数の引数を持つ関数も、applyで適用できます。
argsやkwargsを使用することで、追加の引数を渡すことが可能です。
例を見てみましょう。

def multiply_and_add(x, multiplier, addend):
    return x * multiplier + addend

# 引数を指定してapply
result = s.apply(multiply_and_add, args=(2, 3))

条件分岐を含む関数の適用

条件分岐を含む複雑な処理もapplyで実現できます。
データの内容に応じて異なる処理をおこなう場合に便利です。
以下のコードで具体例を示します。

def complex_operation(x):
    if x < 3:
        return x * 2
    elif x < 5:
        return x ** 2
    else:
        return x + 10

result = s.apply(complex_operation)

DataFrame.applyの活用方法

DataFrame.applyは、2次元データに対して関数を適用する強力なツールです。
行方向や列方向など、さまざまな方向に処理を適用できます。

行方向への関数適用

行方向への関数適用は、axis=1を指定しておこないます。
各行のデータを1つのシリーズとして扱い、処理を適用できます。
具体例を見てみましょう。

# サンプルデータフレーム
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
    'C': [7, 8, 9]
})

# 行の合計を計算
def row_sum(row):
    return row.sum()

result = df.apply(row_sum, axis=1)

列方向への関数適用

列方向への関数適用は、デフォルトの動作です。
各列のデータに対して一括で処理をおこなえます。
以下の例で確認してみましょう。

# 列の平均を計算
def column_mean(col):
    return col.mean()

result = df.apply(column_mean)

複数列を使用した処理

複数の列を組み合わせた複雑な処理も実現できます。
列間の関係性を利用した計算などに便利です。
具体例を示します。

def complex_calculation(row):
    return (row['A'] * row['B']) / row['C']

result = df.apply(complex_calculation, axis=1)

実践的なapply活用例

実際の業務で使用される具体的なapply活用例を紹介します。
これらの例を参考に、自身の課題解決に応用できます。

文字列処理

文字列データの加工や変換は、applyの得意分野です。
正規表現との組み合わせも可能で、柔軟な文字列処理が実現できます。
以下に実践的な例を示します。

# 文字列データのクリーニング
df = pd.DataFrame({
    'text': ['Hello World', 'Python 3.8', 'pandas apply']
})

def clean_text(text):
    return text.lower().replace(' ', '_')

df['cleaned'] = df['text'].apply(clean_text)

日付データの処理

日付データの変換や計算も、applyを使用すると効率的です。
複雑な日付処理も、関数化することで簡単に適用できます。
具体例を見てみましょう。

from datetime import datetime

df = pd.DataFrame({
    'date': ['2024-01-01', '2024-01-02', '2024-01-03']
})

def format_date(date_str):
    date_obj = datetime.strptime(date_str, '%Y-%m-%d')
    return date_obj.strftime('%Y年%m月%d日')

df['formatted_date'] = df['date'].apply(format_date)

数値計算処理

複雑な数値計算も、applyを使用することで簡潔に記述できます。
条件分岐を含む計算や、複数のステップを要する処理に適しています。
以下に実践例を示します。

import numpy as np

df = pd.DataFrame({
    'value': [10, 20, 30, 40, 50]
})

def calculate_complex(x):
    if x < 30:
        return np.sqrt(x) * 2
    else:
        return np.log(x) + x

df['result'] = df['value'].apply(calculate_complex)

applyのパフォーマンス最適化

applyの処理速度を改善する方法について解説します。
適切な最適化により、処理効率を大幅に向上させることができます。

ベクトル化処理との比較

単純な計算の場合、ベクトル化処理の方が高速です。
状況に応じて適切な方法を選択することが重要です。
以下に比較例を示します。

# applyを使用した場合
df['result1'] = df['value'].apply(lambda x: x * 2)

# ベクトル化処理の場合
df['result2'] = df['value'] * 2  # こちらの方が高速

メモリ使用量の最適化

大規模なデータを処理する場合、メモリ使用量の最適化が重要です。
不要なコピーを避け、効率的なメモリ使用を心がけましょう。
具体例を示します。

# メモリ効率の良い処理方法
def memory_efficient_func(chunk):
    return chunk.process()  # 必要最小限の処理

df_chunked = pd.read_csv('large_file.csv', chunksize=1000)
result = pd.concat([chunk.apply(memory_efficient_func) for chunk in df_chunked])

並列処理の活用

pandasのapplyでは、並列処理も活用できます。
処理時間の短縮が必要な場合は、並列処理の導入を検討しましょう。
以下に実装例を示します。

from multiprocessing import Pool

def parallel_process(data):
    # 並列処理する関数
    return complex_calculation(data)

with Pool(processes=4) as pool:
    result = pool.map(parallel_process, df['column'])

まとめ

当記事では、pandas applyについて学習してきました。

ここまで学んだ内容を実際のデータ処理に活用してみましょう。
小さな例から始めて、徐々に複雑な処理にチャレンジすることをおすすめします。
pandas applyの使用は、データ分析スキル向上の重要なステップとなることでしょう。

モバイルバージョンを終了