Решено: получить количество пропущенных значений в пандах

Pandas — это широко используемая библиотека обработки данных с открытым исходным кодом для Python. Он предоставляет структуры данных и функции, необходимые для эффективного управления и анализа больших наборов данных. Одна из распространенных проблем, с которой сталкиваются ученые и аналитики данных при использовании pandas, — это обработка отсутствующих значений в наборе данных. В этой статье мы рассмотрим, как подсчитать количество пропущенных значений в кадре данных pandas, используя различные методы, пошаговые объяснения кода и углубимся в некоторые библиотеки и функции, участвующие в решении этой проблемы.

Подсчет пропущенных значений в Pandas

Для начала нам нужно сначала импортировать библиотеку pandas. Если вы еще не установили его, просто запустите команду pip install pandas в терминале или в командной строке.

import pandas as pd

После того, как мы импортировали библиотеку pandas, давайте создадим образец DataFrame с пропущенными значениями, который мы будем использовать в этой статье для демонстрации различных методов подсчета пропущенных значений.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

В этом примере у нас есть DataFrame с тремя столбцами: Имя, Возраст и Город. Есть некоторые пропущенные значения, которые мы найдем и посчитаем в следующем разделе.

Поиск и подсчет пропущенных значений с использованием isnull() и sum()

Первый способ подсчета пропущенных значений в кадре данных pandas — использование нулевой() функция. Эта функция возвращает кадр данных той же формы, что и оригинал, но со значениями True или False, указывающими, отсутствует ли соответствующая запись (т. е. содержит None или NaN) или нет.

missing_values = df.isnull()

Теперь у нас есть DataFrame той же формы со значениями True, указывающими на отсутствующие записи. Чтобы подсчитать эти пропущенные значения, мы можем просто использовать сумма () функция. Используя его в DataFrame, мы можем получить количество пропущенных значений для каждого столбца.

count_missing_values = df.isnull().sum()

Это даст нам серию pandas с количеством пропущенных значений для каждого столбца в нашем DataFrame.

Альтернативный подход: использование isna() и sum()

Другой подход к подсчету пропущенных значений в кадре данных pandas заключается в использовании исна () функция. Это псевдоним для isnull() и работает точно так же.

count_missing_values = df.isna().sum()

Это даст тот же результат, что и предыдущий подход, подсчитав количество пропущенных значений для каждого столбца в нашем DataFrame.

Подсчет пропущенных значений во всем фрейме данных

Если мы хотим найти общее количество пропущенных значений во всем DataFrame, мы можем просто связать еще один сумма () после первой функции sum().

total_missing_values = df.isnull().sum().sum()

Это вернет общее количество пропущенных значений во всем DataFrame.

Таким образом, обработка пропущенных значений в pandas является важным шагом на этапе очистки и предварительной обработки данных. Используя функции isnull() или isna() в сочетании с функцией sum(), мы можем эффективно подсчитывать количество пропущенных значений в нашем DataFrame, упрощая решение и управление проблемами с отсутствующими данными в нашем анализе.

Похожие посты:

Оставьте комментарий