Вирішено: отримання кількості відсутніх значень у pandas

Pandas — це широко використовувана бібліотека обробки даних з відкритим кодом для Python. Він надає структури даних і функції, необхідні для ефективного маніпулювання та аналізу великих наборів даних. Однією з поширених проблем, з якою стикаються аналітики та дослідники даних під час використання pandas, є обробка відсутніх значень у наборі даних. У цій статті ми розглянемо, як підрахувати кількість відсутніх значень у pandas DataFrame, використовуючи різні техніки, покрокові пояснення коду та глибше розглянемо деякі бібліотеки та функції, задіяні у вирішенні цієї проблеми.

Підрахунок відсутніх значень у Pandas

Для початку нам потрібно імпортувати бібліотеку pandas. Якщо ви ще не встановили його, просто запустіть команду `pip install pandas` у вашому терміналі або командному рядку.

import pandas as pd

Після того, як ми імпортували бібліотеку pandas, давайте створимо зразок DataFrame з відсутніми значеннями, які ми будемо використовувати в цій статті, щоб продемонструвати різні техніки підрахунку відсутніх значень.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

У цьому прикладі у нас є DataFrame із трьома стовпцями: ім’я, вік і місто. Є деякі відсутні значення, які ми знайдемо та підрахуємо в наступному розділі.

Пошук і підрахунок пропущених значень за допомогою isnull() і sum()

Перший метод підрахунку відсутніх значень у pandas DataFrame — це використання isnull () функція. Ця функція повертає DataFrame тієї самої форми, що й оригінал, але зі значеннями True або False, які вказують, чи відсутній відповідний запис (тобто містить None або NaN) чи ні.

missing_values = df.isnull()

Тепер у нас є DataFrame такої самої форми, зі значеннями True, що вказують на відсутні записи. Щоб підрахувати ці пропущені значення, ми можемо просто використати sum () функція. Використовуючи його над DataFrame, ми можемо отримати кількість відсутніх значень для кожного стовпця.

count_missing_values = df.isnull().sum()

Це дасть нам серію pandas із кількістю відсутніх значень для кожного стовпця в нашому DataFrame.

Альтернативний підхід: використання isna() і sum()

Іншим підходом до підрахунку відсутніх значень у pandas DataFrame є використання isna() функція. Це псевдонім для isnull() і працює таким же чином.

count_missing_values = df.isna().sum()

Це дасть той самий результат, що й попередній підхід, підраховуючи кількість відсутніх значень для кожного стовпця в нашому DataFrame.

Підрахунок відсутніх значень у всьому фреймі даних

Якщо ми хочемо знайти загальну кількість відсутніх значень у всьому DataFrame, ми можемо просто об’єднати інший sum () після першої функції sum().

total_missing_values = df.isnull().sum().sum()

Це поверне загальну кількість відсутніх значень у всьому DataFrame.

Таким чином, обробка відсутніх значень у pandas є важливим кроком на етапі очищення та попередньої обробки даних. Використовуючи функції isnull() або isna() у поєднанні з функцією sum(), ми можемо ефективно підраховувати кількість відсутніх значень у нашому DataFrame, що полегшує вирішення та керування проблемами відсутніх даних у нашому аналізі.

Схожі повідомлення:

Залишити коментар