A Pandas egy széles körben használt nyílt forráskódú adatkezelési könyvtár a Python számára. Olyan adatstruktúrákat és funkciókat biztosít, amelyek a nagy adatkészletek hatékony kezeléséhez és elemzéséhez szükségesek. Az egyik gyakori probléma, amellyel az adattudósok és elemzők találkoznak pandák használata közben, az adatkészlet hiányzó értékeinek kezelése. Ebben a cikkben megvizsgáljuk, hogyan számolhatjuk meg a hiányzó értékek számát egy pandas DataFrame-ben különböző technikák segítségével, lépésről lépésre magyarázzuk el a kódot, és mélyebbre ásunk néhány könyvtárat és funkciót, amelyek részt vesznek a probléma megoldásában.
A hiányzó értékek számolása a pandákban
A kezdéshez először importálnunk kell a panda könyvtárat. Ha még nem telepítette, egyszerűen futtassa a "pip install pandas" parancsot a terminálban vagy a parancssorban.
import pandas as pd
Miután importáltuk a pandas könyvtárat, hozzunk létre egy minta DataFrame-et hiányzó értékekkel, amelyet ebben a cikkben a hiányzó értékek számlálásának különböző technikáinak bemutatására fogunk használni.
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
Ebben a példában van egy DataFrame három oszloppal: Név, Életkor és Város. Vannak hiányzó értékek, amelyeket a következő részben találunk és számolunk.
Hiányzó értékek keresése és számlálása az isnull() és a sum() használatával
Az első módszer a hiányzó értékek megszámlálására egy pandas DataFrame-ben a nulla() funkció. Ez a függvény az eredetivel megegyező alakú DataFrame-et ad vissza, de True vagy False értékekkel jelzi, hogy a megfelelő bejegyzés hiányzik-e (vagyis tartalmaz-e None vagy NaN) vagy sem.
missing_values = df.isnull()
Most egy ugyanolyan alakú DataFrame-ünk van, a True értékek a hiányzó bejegyzéseket jelzik. A hiányzó értékek megszámlálásához egyszerűen használhatjuk a összeg () funkció. Ha a DataFrame-en keresztül használjuk, minden oszlophoz megkapjuk a hiányzó értékek számát.
count_missing_values = df.isnull().sum()
Ezzel egy pandas sorozatot kapunk a DataFrame-ünk egyes oszlopaihoz tartozó hiányzó értékek számával.
Alternatív megközelítés: az isna() és a sum() használata
Egy másik módszer a hiányzó értékek megszámlálására egy pandas DataFrame-ben a isna () funkció. Ez az isnull() álneve, és ugyanúgy működik.
count_missing_values = df.isna().sum()
Ez ugyanazt az eredményt adja, mint az előző megközelítés, és megszámolja a hiányzó értékek számát a DataFrame egyes oszlopaiban.
A hiányzó értékek számlálása a teljes adatkeretben
Ha meg akarjuk találni a hiányzó értékek teljes számát a teljes DataFrame-ben, egyszerűen láncolhatunk egy másikat összeg () függvény az első összeg() függvény után.
total_missing_values = df.isnull().sum().sum()
Ez visszaadja a teljes DataFrame-ben hiányzó értékek teljes számát.
Összefoglalva, a hiányzó értékek kezelése pandáknál az adattisztítási és előfeldolgozási szakasz döntő lépése. Az isnull() vagy isna() függvények használatával, a sum() függvénnyel kombinálva hatékonyan megszámolhatjuk a DataFrame-ünkben hiányzó értékek számát, így könnyebben kezelhetjük és kezelhetjük a hiányzó adatproblémákat elemzésünk során.