Pandas je široko uporabljena odprtokodna knjižnica za obdelavo podatkov za Python. Zagotavlja podatkovne strukture in funkcije, potrebne za učinkovito manipulacijo in analizo velikih naborov podatkov. Ena pogosta težava, s katero se srečujejo podatkovni znanstveniki in analitiki pri uporabi pand, je ravnanje z manjkajočimi vrednostmi v naboru podatkov. V tem članku bomo raziskali, kako prešteti število manjkajočih vrednosti v pandas DataFrame z uporabo različnih tehnik, razlage kode po korakih in se poglobili v nekatere knjižnice in funkcije, ki sodelujejo pri reševanju te težave.
Štetje manjkajočih vrednosti v Pandas
Za začetek moramo najprej uvoziti knjižnico pand. Če ga še niste namestili, preprosto zaženite ukaz `pip install pandas` v terminalu ali ukaznem pozivu.
import pandas as pd
Ko smo uvozili knjižnico pandas, ustvarimo vzorčni podatkovni okvir z manjkajočimi vrednostmi, ki ga bomo uporabljali v tem članku za prikaz različnih tehnik štetja manjkajočih vrednosti.
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
V tem primeru imamo DataFrame s tremi stolpci: ime, starost in mesto. Obstaja nekaj manjkajočih vrednosti, ki jih bomo našli in prešteli v naslednjem razdelku.
Iskanje in štetje manjkajočih vrednosti z uporabo isnull() in sum()
Prva metoda za štetje manjkajočih vrednosti v pandas DataFrame je uporaba isnull() funkcijo. Ta funkcija vrne DataFrame enake oblike kot izvirnik, vendar z vrednostmi True ali False, ki označujejo, ali ustrezen vnos manjka (tj. vsebuje None ali NaN) ali ne.
missing_values = df.isnull()
Zdaj imamo DataFrame enake oblike, z vrednostmi True, ki označujejo manjkajoče vnose. Za štetje teh manjkajočih vrednosti lahko preprosto uporabimo vsota() funkcijo. Če ga uporabimo nad DataFrame, lahko dobimo število manjkajočih vrednosti za vsak stolpec.
count_missing_values = df.isnull().sum()
To nam bo dalo serijo pandas s številom manjkajočih vrednosti za vsak stolpec v našem DataFrame.
Alternativni pristop: uporaba isna() in sum()
Drug pristop za štetje manjkajočih vrednosti v pandas DataFrame je uporaba isna() funkcijo. Je vzdevek za isnull() in deluje na enak način.
count_missing_values = df.isna().sum()
To bo dalo enak rezultat kot prejšnji pristop, štetje števila manjkajočih vrednosti za vsak stolpec v našem DataFrame.
Štetje manjkajočih vrednosti v celotnem podatkovnem okviru
Če želimo poiskati skupno število manjkajočih vrednosti v celotnem DataFrameu, lahko preprosto verižimo drugega vsota() funkcijo za prvo funkcijo sum().
total_missing_values = df.isnull().sum().sum()
To bo vrnilo skupno število manjkajočih vrednosti v celotnem DataFrame.
Če povzamemo, je obravnava manjkajočih vrednosti v pandah ključni korak v fazi čiščenja in predhodne obdelave podatkov. Z uporabo funkcij isnull() ali isna() v kombinaciji s funkcijo sum() lahko učinkovito preštejemo število manjkajočih vrednosti v našem DataFrame, kar olajša obravnavanje in upravljanje težav z manjkajočimi podatki v naši analizi.