Решено: добијање броја вредности које недостају у пандама

Пандас је широко коришћена библиотека отвореног кода за манипулацију подацима за Питхон. Обезбеђује структуре података и функције потребне за ефикасну манипулацију и анализу великих скупова података. Један уобичајени проблем са којим се научници и аналитичари података сусрећу док користе панде је руковање недостајућим вредностима у скупу података. У овом чланку ћемо истражити како да избројимо број недостајућих вредности у пандас ДатаФраме-у користећи различите технике, корак по корак објашњења кода и дубље ући ћемо у неке од библиотека и функција укључених у решавање овог проблема.

Бројање вредности које недостају у Пандама

За почетак, прво морамо да увеземо библиотеку панда. Ако га још увек нисте инсталирали, једноставно покрените команду `пип инсталл пандас` у свом терминалу или командној линији.

import pandas as pd

Када увеземо библиотеку пандас, хајде да направимо пример ДатаФраме-а са недостајућим вредностима, који ћемо користити у овом чланку да демонстрирамо различите технике бројања вредности које недостају.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

У овом примеру имамо ДатаФраме са три колоне: Име, Старост и Град. Недостају неке вредности, које ћемо пронаћи и пребројати у следећем одељку.

Проналажење и бројање вредности које недостају помоћу иснулл() и сум()

Први метод за бројање вредности које недостају у пандас ДатаФраме-у је коришћење иснулл() функција. Ова функција враћа ДатаФраме истог облика као оригинал, али са Тачним или Нетачним вредностима које показују да ли одговарајући унос недостаје (тј. садржи Ноне или НаН) или не.

missing_values = df.isnull()

Сада имамо ДатаФраме истог облика, са Труе вредностима које указују на недостајуће уносе. Да бисмо пребројали ове недостајуће вредности, можемо једноставно користити сума() функција. Користећи га преко ДатаФраме-а, можемо добити број вредности које недостају за сваку колону.

count_missing_values = df.isnull().sum()

Ово ће нам дати пандас серију са бројем вредности које недостају за сваку колону у нашем ДатаФраме-у.

Алтернативни приступ: Коришћење исна() и сум()

Други приступ за бројање вредности које недостају у пандас ДатаФраме-у је коришћење исна() функција. То је псеудоним за иснулл() и ради на исти начин.

count_missing_values = df.isna().sum()

Ово ће дати исти резултат као претходни приступ, рачунајући број вредности које недостају за сваку колону у нашем ДатаФраме-у.

Бројање вредности које недостају у целом оквиру података

Ако желимо да пронађемо укупан број вредности које недостају у целом ДатаФраме-у, можемо једноставно уланчати још једну сума() функција после прве функције сум().

total_missing_values = df.isnull().sum().sum()

Ово ће вратити укупан број вредности које недостају у целом ДатаФраме-у.

Укратко, руковање недостајућим вредностима у пандама је кључни корак у фази чишћења и претходне обраде података. Коришћењем функција иснулл() или исна(), у комбинацији са функцијом сум(), можемо ефикасно да пребројимо број вредности које недостају у нашем ДатаФраме-у, што олакшава решавање проблема са подацима који недостају у нашој анализи и управљање њима.

Релатед постс:

Оставите коментар