Riješeno: dobivanje broja nedostajućih vrijednosti u pandama

Pandas je široko korištena knjižnica otvorenog koda za manipulaciju podacima za Python. Pruža strukture podataka i funkcije potrebne za učinkovito manipuliranje i analizu velikih skupova podataka. Jedan uobičajeni problem s kojim se znanstvenici i analitičari podataka susreću dok koriste pande je rukovanje nedostajućim vrijednostima u skupu podataka. U ovom ćemo članku istražiti kako izbrojati broj nedostajućih vrijednosti u pandas DataFrameu koristeći različite tehnike, detaljna objašnjenja koda i dublje istražiti neke od biblioteka i funkcija uključenih u rješavanje ovog problema.

Brojanje nedostajućih vrijednosti u Pandas

Za početak, prvo moramo uvesti biblioteku pandas. Ako ga još niste instalirali, jednostavno pokrenite naredbu `pip install pandas` na svom terminalu ili naredbenom retku.

import pandas as pd

Nakon što smo uvezli biblioteku pandas, stvorimo ogledni DataFrame s vrijednostima koje nedostaju, a koje ćemo koristiti u ovom članku da demonstriramo različite tehnike brojanja vrijednosti koje nedostaju.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

U ovom primjeru imamo DataFrame s tri stupca: ime, dob i grad. Nedostaju neke vrijednosti koje ćemo pronaći i prebrojati u sljedećem odjeljku.

Pronalaženje i brojanje vrijednosti koje nedostaju pomoću isnull() i sum()

Prva metoda za brojanje nedostajućih vrijednosti u pandas DataFrameu je korištenje isnull() funkcija. Ova funkcija vraća DataFrame istog oblika kao izvornik, ali s vrijednostima True ili False koje pokazuju nedostaje li odgovarajući unos (tj. sadrži None ili NaN) ili ne.

missing_values = df.isnull()

Sada imamo DataFrame istog oblika, s True vrijednostima koje označavaju unose koji nedostaju. Za prebrojavanje ovih vrijednosti koje nedostaju, možemo jednostavno koristiti iznos() funkcija. Koristeći ga preko DataFramea, možemo dobiti broj vrijednosti koje nedostaju za svaki stupac.

count_missing_values = df.isnull().sum()

To će nam dati seriju pandas s brojem vrijednosti koje nedostaju za svaki stupac u našem DataFrameu.

Alternativni pristup: korištenje isna() i sum()

Drugi pristup brojanju vrijednosti koje nedostaju u pandas DataFrameu je korištenje isna() funkcija. To je alias za isnull() i radi na isti način.

count_missing_values = df.isna().sum()

Ovo će dati isti rezultat kao prethodni pristup, brojanje vrijednosti koje nedostaju za svaki stupac u našem DataFrameu.

Brojanje nedostajućih vrijednosti u cijelom podatkovnom okviru

Ako želimo pronaći ukupan broj vrijednosti koje nedostaju u cijelom DataFrameu, možemo jednostavno ulančati još jedan iznos() funkcija nakon prve funkcije sum().

total_missing_values = df.isnull().sum().sum()

Ovo će vratiti ukupan broj vrijednosti koje nedostaju u cijelom DataFrameu.

Ukratko, rukovanje nedostajućim vrijednostima u pandama ključan je korak u fazi čišćenja i predobrade podataka. Upotrebom funkcija isnull() ili isna(), u kombinaciji s funkcijom sum(), možemo učinkovito prebrojati broj vrijednosti koje nedostaju u našem DataFrameu, što olakšava rješavanje problema s podacima koji nedostaju i upravljanje njima u našoj analizi.

Povezani postovi:

Ostavite komentar