Megoldva: a hiányzó értékek számának lekérése pandákban

A Pandas egy széles körben használt nyílt forráskódú adatkezelési könyvtár a Python számára. Olyan adatstruktúrákat és funkciókat biztosít, amelyek a nagy adatkészletek hatékony kezeléséhez és elemzéséhez szükségesek. Az egyik gyakori probléma, amellyel az adattudósok és elemzők találkoznak pandák használata közben, az adatkészlet hiányzó értékeinek kezelése. Ebben a cikkben megvizsgáljuk, hogyan számolhatjuk meg a hiányzó értékek számát egy pandas DataFrame-ben különböző technikák segítségével, lépésről lépésre magyarázzuk el a kódot, és mélyebbre ásunk néhány könyvtárat és funkciót, amelyek részt vesznek a probléma megoldásában.

A hiányzó értékek számolása a pandákban

A kezdéshez először importálnunk kell a panda könyvtárat. Ha még nem telepítette, egyszerűen futtassa a "pip install pandas" parancsot a terminálban vagy a parancssorban.

import pandas as pd

Miután importáltuk a pandas könyvtárat, hozzunk létre egy minta DataFrame-et hiányzó értékekkel, amelyet ebben a cikkben a hiányzó értékek számlálásának különböző technikáinak bemutatására fogunk használni.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Ebben a példában van egy DataFrame három oszloppal: Név, Életkor és Város. Vannak hiányzó értékek, amelyeket a következő részben találunk és számolunk.

Hiányzó értékek keresése és számlálása az isnull() és a sum() használatával

Az első módszer a hiányzó értékek megszámlálására egy pandas DataFrame-ben a nulla() funkció. Ez a függvény az eredetivel megegyező alakú DataFrame-et ad vissza, de True vagy False értékekkel jelzi, hogy a megfelelő bejegyzés hiányzik-e (vagyis tartalmaz-e None vagy NaN) vagy sem.

missing_values = df.isnull()

Most egy ugyanolyan alakú DataFrame-ünk van, a True értékek a hiányzó bejegyzéseket jelzik. A hiányzó értékek megszámlálásához egyszerűen használhatjuk a összeg () funkció. Ha a DataFrame-en keresztül használjuk, minden oszlophoz megkapjuk a hiányzó értékek számát.

count_missing_values = df.isnull().sum()

Ezzel egy pandas sorozatot kapunk a DataFrame-ünk egyes oszlopaihoz tartozó hiányzó értékek számával.

Alternatív megközelítés: az isna() és a sum() használata

Egy másik módszer a hiányzó értékek megszámlálására egy pandas DataFrame-ben a isna () funkció. Ez az isnull() álneve, és ugyanúgy működik.

count_missing_values = df.isna().sum()

Ez ugyanazt az eredményt adja, mint az előző megközelítés, és megszámolja a hiányzó értékek számát a DataFrame egyes oszlopaiban.

A hiányzó értékek számlálása a teljes adatkeretben

Ha meg akarjuk találni a hiányzó értékek teljes számát a teljes DataFrame-ben, egyszerűen láncolhatunk egy másikat összeg () függvény az első összeg() függvény után.

total_missing_values = df.isnull().sum().sum()

Ez visszaadja a teljes DataFrame-ben hiányzó értékek teljes számát.

Összefoglalva, a hiányzó értékek kezelése pandáknál az adattisztítási és előfeldolgozási szakasz döntő lépése. Az isnull() vagy isna() függvények használatával, a sum() függvénnyel kombinálva hatékonyan megszámolhatjuk a DataFrame-ünkben hiányzó értékek számát, így könnyebben kezelhetjük és kezelhetjük a hiányzó adatproblémákat elemzésünk során.

Kapcsolódó hozzászólások:

Írj hozzászólást