已解决:获取 pandas 中缺失值的数量

Pandas 是一种广泛使用的 Python 开源数据操作库。 它提供了有效操作和分析大型数据集所需的数据结构和功能。 数据科学家和分析师在使用 pandas 时遇到的一个常见问题是处理数据集中的缺失值。 在本文中,我们将探讨如何使用各种技术计算 pandas DataFrame 中缺失值的数量,逐步解释代码,并深入研究解决此问题所涉及的一些库和函数。

计算 Pandas 中的缺失值

首先,我们需要先导入 pandas 库。 如果您还没有安装它,只需在您的终端或命令提示符中运行命令“pip install pandas”。

import pandas as pd

导入 pandas 库后,让我们创建一个包含缺失值的示例 DataFrame,我们将在整篇文章中使用它来演示计算缺失值的不同技术。

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

在此示例中,我们有一个包含三列的 DataFrame:姓名、年龄和城市。 有一些缺失值,我们将在下一节中找到并计算这些值。

使用 isnull() 和 sum() 查找和计算缺失值

在 pandas DataFrame 中计算缺失值的第一种方法是使用 一片空白() 功能。 此函数返回与原始形状相同的 DataFrame,但具有 True 或 False 值,指示相应条目是否缺失(即包含 None 或 NaN)。

missing_values = df.isnull()

现在我们有一个相同形状的 DataFrame,True 值表示缺少条目。 要计算这些缺失值,我们可以简单地使用 总和() 功能。 通过在 DataFrame 上使用它,我们可以获得每列缺失值的数量。

count_missing_values = df.isnull().sum()

这将为我们提供一个 pandas 系列,其中包含 DataFrame 中每一列的缺失值数量。

替代方法:使用 isna() 和 sum()

另一种计算 pandas DataFrame 中缺失值的方法是使用 伊斯纳() 功能。 它是 isnull() 的别名,并且以相同的方式工作。

count_missing_values = df.isna().sum()

这将给出与之前方法相同的结果,计算 DataFrame 中每一列缺失值的数量。

计算整个 DataFrame 中的缺失值

如果我们想找到整个 DataFrame 中缺失值的总数,我们可以简单地链接另一个 总和() 在第一个 sum() 函数之后的函数。

total_missing_values = df.isnull().sum().sum()

这将返回整个 DataFrame 中缺失值的总数。

总之,处理 pandas 中的缺失值是数据清理和预处理阶段的关键步骤。 通过使用 isnull() 或 isna() 函数,结合 sum() 函数,我们可以有效地计算 DataFrame 中缺失值的数量,从而更容易解决和管理我们分析中的缺失数据问题。

相关文章:

发表评论