Pandas 是一種廣泛使用的 Python 開源數據操作庫。 它提供了有效操作和分析大型數據集所需的數據結構和功能。 數據科學家和分析師在使用 pandas 時遇到的一個常見問題是處理數據集中的缺失值。 在本文中,我們將探討如何使用各種技術計算 pandas DataFrame 中缺失值的數量,逐步解釋代碼,並深入研究解決此問題所涉及的一些庫和函數。
計算 Pandas 中的缺失值
首先,我們需要先導入 pandas 庫。 如果您還沒有安裝它,只需在您的終端或命令提示符中運行命令“pip install pandas”。
import pandas as pd
導入 pandas 庫後,讓我們創建一個包含缺失值的示例 DataFrame,我們將在整篇文章中使用它來演示計算缺失值的不同技術。
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
在此示例中,我們有一個包含三列的 DataFrame:姓名、年齡和城市。 有一些缺失值,我們將在下一節中找到併計算這些值。
使用 isnull() 和 sum() 查找和計算缺失值
在 pandas DataFrame 中計算缺失值的第一種方法是使用 一片空白() 功能。 此函數返回與原始形狀相同的 DataFrame,但具有 True 或 False 值,指示相應條目是否缺失(即包含 None 或 NaN)。
missing_values = df.isnull()
現在我們有一個相同形狀的 DataFrame,True 值表示缺少條目。 要計算這些缺失值,我們可以簡單地使用 總和() 功能。 通過在 DataFrame 上使用它,我們可以獲得每列缺失值的數量。
count_missing_values = df.isnull().sum()
這將為我們提供一個 pandas 系列,其中包含 DataFrame 中每一列的缺失值數量。
替代方法:使用 isna() 和 sum()
另一種計算 pandas DataFrame 中缺失值的方法是使用 伊斯納() 功能。 它是 isnull() 的別名並且以相同的方式工作。
count_missing_values = df.isna().sum()
這將給出與之前方法相同的結果,計算 DataFrame 中每一列缺失值的數量。
計算整個 DataFrame 中的缺失值
如果我們想找到整個 DataFrame 中缺失值的總數,我們可以簡單地鏈接另一個 總和() 在第一個 sum() 函數之後的函數。
total_missing_values = df.isnull().sum().sum()
這將返回整個 DataFrame 中缺失值的總數。
總之,處理 pandas 中的缺失值是數據清理和預處理階段的關鍵步驟。 通過使用 isnull() 或 isna() 函數,結合 sum() 函數,我們可以有效地計算 DataFrame 中缺失值的數量,從而更容易解決和管理我們分析中的缺失數據問題。