Pandas は、広く使用されている Python 用のオープンソース データ操作ライブラリです。 大規模なデータセットを効果的に操作および分析するために必要なデータ構造と機能を提供します。 pandas の使用中にデータ サイエンティストやアナリストが遭遇する一般的な問題の XNUMX つは、データセット内の欠損値の処理です。 この記事では、さまざまな手法を使用して pandas DataFrame の欠損値の数をカウントする方法、コードの段階的な説明、およびこの問題の解決に関連するいくつかのライブラリと関数について詳しく説明します。
Pandas での欠損値のカウント
まず、パンダ ライブラリをインポートする必要があります。 まだインストールしていない場合は、ターミナルまたはコマンド プロンプトで「pip install pandas」コマンドを実行するだけです。
import pandas as pd
pandas ライブラリをインポートしたら、欠損値を含むサンプル DataFrame を作成しましょう。これをこの記事全体で使用して、欠損値をカウントするさまざまな手法を示します。
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
この例では、Name、Age、City の XNUMX つの列を持つ DataFrame があります。 欠損値がいくつかありますが、次のセクションで見つけてカウントします。
isnull() と sum() を使用した欠損値の検索とカウント
pandas DataFrame の欠損値をカウントする最初の方法は、 無効です() 関数。 この関数は、元のデータフレームと同じ形状の DataFrame を返しますが、対応するエントリが欠落しているかどうか (つまり、None または NaN を含む) を示す True または False 値を持ちます。
missing_values = df.isnull()
これで、欠落しているエントリを示す True 値を持つ、同じ形状の DataFrame ができました。 これらの欠損値をカウントするには、単純に 和() 関数。 DataFrame で使用することにより、各列の欠損値の数を取得できます。
count_missing_values = df.isnull().sum()
これにより、DataFrame の各列の欠損値の数を含む pandas シリーズが得られます。
別のアプローチ: isna() と sum() の使用
pandas DataFrame の欠損値をカウントする別の方法は、 イズナ() 関数。 これは isnull() のエイリアスであり、同じように機能します。
count_missing_values = df.isna().sum()
これにより、前のアプローチと同じ結果が得られ、DataFrame の各列の欠損値の数がカウントされます。
データフレーム全体で欠損値をカウントする
DataFrame 全体で欠落している値の総数を見つけたい場合は、単純に別の値を連鎖させることができます。 和() 最初の sum() 関数の後の関数。
total_missing_values = df.isnull().sum().sum()
これにより、DataFrame 全体の欠損値の総数が返されます。
要約すると、pandas で欠損値を処理することは、データのクリーニングと前処理のフェーズにおける重要なステップです。 isnull() または isna() 関数を sum() 関数と組み合わせて使用することで、DataFrame 内の欠損値の数を効率的にカウントできるため、分析における欠損データの問題への対処と管理が容易になります。