Решено: получаване на броя на липсващите стойности в pandas

Pandas е широко използвана библиотека за манипулиране на данни с отворен код за Python. Той предоставя структури от данни и функции, необходими за ефективно манипулиране и анализиране на големи набори от данни. Един често срещан проблем, който учените и анализаторите на данни срещат, докато използват pandas, е обработката на липсващи стойности в набора от данни. В тази статия ще проучим как да преброим броя на липсващите стойности в pandas DataFrame, като използваме различни техники, стъпка по стъпка обяснения на кода и ще се задълбочим в някои от библиотеките и функциите, включени в решаването на този проблем.

Преброяване на липсващите стойности в Pandas

За да започнем, първо трябва да импортираме библиотеката на pandas. Ако все още не сте го инсталирали, просто изпълнете командата `pip install pandas` във вашия терминал или командния ред.

import pandas as pd

След като импортираме библиотеката на pandas, нека създадем примерна DataFrame с липсващи стойности, която ще използваме в тази статия, за да демонстрираме различни техники за преброяване на липсващи стойности.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

В този пример имаме DataFrame с три колони: име, възраст и град. Има някои липсващи стойности, които ще намерим и преброим в следващия раздел.

Намиране и преброяване на липсващи стойности с помощта на isnull() и sum()

Първият метод за преброяване на липсващи стойности в pandas DataFrame е чрез използване на isnull() функция. Тази функция връща DataFrame със същата форма като оригинала, но със стойности True или False, показващи дали съответният запис липсва (т.е. съдържа None или NaN) или не.

missing_values = df.isnull()

Сега имаме DataFrame със същата форма, с True стойности, показващи липсващи записи. За да преброим тези липсващи стойности, можем просто да използваме сума() функция. Използвайки го над DataFrame, можем да получим броя на липсващите стойности за всяка колона.

count_missing_values = df.isnull().sum()

Това ще ни даде серия pandas с броя на липсващите стойности за всяка колона в нашия DataFrame.

Алтернативен подход: Използване на isna() и sum()

Друг подход за преброяване на липсващи стойности в pandas DataFrame е чрез използване на isna() функция. Това е псевдоним за isnull() и работи по същия начин.

count_missing_values = df.isna().sum()

Това ще даде същия резултат като предишния подход, преброявайки броя на липсващите стойности за всяка колона в нашия DataFrame.

Преброяване на липсващите стойности в цялата рамка с данни

Ако искаме да намерим общия брой липсващи стойности в цялата DataFrame, можем просто да веригираме друга сума() функция след първата функция sum().

total_missing_values = df.isnull().sum().sum()

Това ще върне общия брой липсващи стойности в цялата DataFrame.

В обобщение, обработката на липсващи стойности в pandas е решаваща стъпка във фазата на почистване и предварителна обработка на данни. Чрез използването на функциите isnull() или isna() в комбинация с функцията sum() можем ефективно да преброим броя на липсващите стойности в нашия DataFrame, което улеснява адресирането и управлението на проблеми с липсващи данни в нашия анализ.

Подобни публикации:

Оставете коментар