已解決:獲取 pandas 中缺失值的數量

Pandas 是一種廣泛使用的 Python 開源數據操作庫。 它提供了有效操作和分析大型數據集所需的數據結構和功能。 數據科學家和分析師在使用 pandas 時遇到的一個常見問題是處理數據集中的缺失值。 在本文中,我們將探討如何使用各種技術計算 pandas DataFrame 中缺失值的數量,逐步解釋代碼,並深入研究解決此問題所涉及的一些庫和函數。

計算 Pandas 中的缺失值

首先,我們需要先導入 pandas 庫。 如果您還沒有安裝它,只需在您的終端或命令提示符中運行命令“pip install pandas”。

import pandas as pd

導入 pandas 庫後,讓我們創建一個包含缺失值的示例 DataFrame,我們將在整篇文章中使用它來演示計算缺失值的不同技術。

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

在此示例中,我們有一個包含三列的 DataFrame:姓名、年齡和城市。 有一些缺失值,我們將在下一節中找到併計算這些值。

使用 isnull() 和 sum() 查找和計算缺失值

在 pandas DataFrame 中計算缺失值的第一種方法是使用 一片空白() 功能。 此函數返回與原始形狀相同的 DataFrame,但具有 True 或 False 值,指示相應條目是否缺失(即包含 None 或 NaN)。

missing_values = df.isnull()

現在我們有一個相同形狀的 DataFrame,True 值表示缺少條目。 要計算這些缺失值,我們可以簡單地使用 總和() 功能。 通過在 DataFrame 上使用它,我們可以獲得每列缺失值的數量。

count_missing_values = df.isnull().sum()

這將為我們提供一個 pandas 系列,其中包含 DataFrame 中每一列的缺失值數量。

替代方法:使用 isna() 和 sum()

另一種計算 pandas DataFrame 中缺失值的方法是使用 伊斯納() 功能。 它是 isnull() 的別名並且以相同的方式工作。

count_missing_values = df.isna().sum()

這將給出與之前方法相同的結果,計算 DataFrame 中每一列缺失值的數量。

計算整個 DataFrame 中的缺失值

如果我們想找到整個 DataFrame 中缺失值的總數,我們可以簡單地鏈接另一個 總和() 在第一個 sum() 函數之後的函數。

total_missing_values = df.isnull().sum().sum()

這將返回整個 DataFrame 中缺失值的總數。

總之,處理 pandas 中的缺失值是數據清理和預處理階段的關鍵步驟。 通過使用 isnull() 或 isna() 函數,結合 sum() 函數,我們可以有效地計算 DataFrame 中缺失值的數量,從而更容易解決和管理我們分析中的缺失數據問題。

相關文章:

發表評論