Pandas 是一种广泛使用的 Python 开源数据操作库。 它提供了有效操作和分析大型数据集所需的数据结构和功能。 数据科学家和分析师在使用 pandas 时遇到的一个常见问题是处理数据集中的缺失值。 在本文中,我们将探讨如何使用各种技术计算 pandas DataFrame 中缺失值的数量,逐步解释代码,并深入研究解决此问题所涉及的一些库和函数。
计算 Pandas 中的缺失值
首先,我们需要先导入 pandas 库。 如果您还没有安装它,只需在您的终端或命令提示符中运行命令“pip install pandas”。
import pandas as pd
导入 pandas 库后,让我们创建一个包含缺失值的示例 DataFrame,我们将在整篇文章中使用它来演示计算缺失值的不同技术。
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
在此示例中,我们有一个包含三列的 DataFrame:姓名、年龄和城市。 有一些缺失值,我们将在下一节中找到并计算这些值。
使用 isnull() 和 sum() 查找和计算缺失值
在 pandas DataFrame 中计算缺失值的第一种方法是使用 一片空白() 功能。 此函数返回与原始形状相同的 DataFrame,但具有 True 或 False 值,指示相应条目是否缺失(即包含 None 或 NaN)。
missing_values = df.isnull()
现在我们有一个相同形状的 DataFrame,True 值表示缺少条目。 要计算这些缺失值,我们可以简单地使用 总和() 功能。 通过在 DataFrame 上使用它,我们可以获得每列缺失值的数量。
count_missing_values = df.isnull().sum()
这将为我们提供一个 pandas 系列,其中包含 DataFrame 中每一列的缺失值数量。
替代方法:使用 isna() 和 sum()
另一种计算 pandas DataFrame 中缺失值的方法是使用 伊斯纳() 功能。 它是 isnull() 的别名,并且以相同的方式工作。
count_missing_values = df.isna().sum()
这将给出与之前方法相同的结果,计算 DataFrame 中每一列缺失值的数量。
计算整个 DataFrame 中的缺失值
如果我们想找到整个 DataFrame 中缺失值的总数,我们可以简单地链接另一个 总和() 在第一个 sum() 函数之后的函数。
total_missing_values = df.isnull().sum().sum()
这将返回整个 DataFrame 中缺失值的总数。
总之,处理 pandas 中的缺失值是数据清理和预处理阶段的关键步骤。 通过使用 isnull() 或 isna() 函数,结合 sum() 函数,我们可以有效地计算 DataFrame 中缺失值的数量,从而更容易解决和管理我们分析中的缺失数据问题。