Rešeno: pridobivanje števila manjkajočih vrednosti v pandah

Pandas je široko uporabljena odprtokodna knjižnica za obdelavo podatkov za Python. Zagotavlja podatkovne strukture in funkcije, potrebne za učinkovito manipulacijo in analizo velikih naborov podatkov. Ena pogosta težava, s katero se srečujejo podatkovni znanstveniki in analitiki pri uporabi pand, je ravnanje z manjkajočimi vrednostmi v naboru podatkov. V tem članku bomo raziskali, kako prešteti število manjkajočih vrednosti v pandas DataFrame z uporabo različnih tehnik, razlage kode po korakih in se poglobili v nekatere knjižnice in funkcije, ki sodelujejo pri reševanju te težave.

Štetje manjkajočih vrednosti v Pandas

Za začetek moramo najprej uvoziti knjižnico pand. Če ga še niste namestili, preprosto zaženite ukaz `pip install pandas` v terminalu ali ukaznem pozivu.

import pandas as pd

Ko smo uvozili knjižnico pandas, ustvarimo vzorčni podatkovni okvir z manjkajočimi vrednostmi, ki ga bomo uporabljali v tem članku za prikaz različnih tehnik štetja manjkajočih vrednosti.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

V tem primeru imamo DataFrame s tremi stolpci: ime, starost in mesto. Obstaja nekaj manjkajočih vrednosti, ki jih bomo našli in prešteli v naslednjem razdelku.

Iskanje in štetje manjkajočih vrednosti z uporabo isnull() in sum()

Prva metoda za štetje manjkajočih vrednosti v pandas DataFrame je uporaba isnull() funkcijo. Ta funkcija vrne DataFrame enake oblike kot izvirnik, vendar z vrednostmi True ali False, ki označujejo, ali ustrezen vnos manjka (tj. vsebuje None ali NaN) ali ne.

missing_values = df.isnull()

Zdaj imamo DataFrame enake oblike, z vrednostmi True, ki označujejo manjkajoče vnose. Za štetje teh manjkajočih vrednosti lahko preprosto uporabimo vsota() funkcijo. Če ga uporabimo nad DataFrame, lahko dobimo število manjkajočih vrednosti za vsak stolpec.

count_missing_values = df.isnull().sum()

To nam bo dalo serijo pandas s številom manjkajočih vrednosti za vsak stolpec v našem DataFrame.

Alternativni pristop: uporaba isna() in sum()

Drug pristop za štetje manjkajočih vrednosti v pandas DataFrame je uporaba isna() funkcijo. Je vzdevek za isnull() in deluje na enak način.

count_missing_values = df.isna().sum()

To bo dalo enak rezultat kot prejšnji pristop, štetje števila manjkajočih vrednosti za vsak stolpec v našem DataFrame.

Štetje manjkajočih vrednosti v celotnem podatkovnem okviru

Če želimo poiskati skupno število manjkajočih vrednosti v celotnem DataFrameu, lahko preprosto verižimo drugega vsota() funkcijo za prvo funkcijo sum().

total_missing_values = df.isnull().sum().sum()

To bo vrnilo skupno število manjkajočih vrednosti v celotnem DataFrame.

Če povzamemo, je obravnava manjkajočih vrednosti v pandah ključni korak v fazi čiščenja in predhodne obdelave podatkov. Z uporabo funkcij isnull() ali isna() v kombinaciji s funkcijo sum() lahko učinkovito preštejemo število manjkajočih vrednosti v našem DataFrame, kar olajša obravnavanje in upravljanje težav z manjkajočimi podatki v naši analizi.

Podobni objav:

Pustite komentar