Riješeno: dobivanje broja vrijednosti koje nedostaju u pandama

Pandas je široko korišćena biblioteka otvorenog koda za manipulaciju podacima za Python. Pruža strukture podataka i funkcije potrebne za efikasnu manipulaciju i analizu velikih skupova podataka. Jedan uobičajeni problem sa kojim se naučnici i analitičari podataka susreću dok koriste pande je rukovanje nedostajućim vrednostima u skupu podataka. U ovom članku ćemo istražiti kako izbrojati broj nedostajućih vrijednosti u pandas DataFrame-u koristeći različite tehnike, postupna objašnjenja koda i dublje ući u neke od biblioteka i funkcija uključenih u rješavanje ovog problema.

Brojanje vrijednosti koje nedostaju u Pandama

Za početak, moramo prvo uvesti biblioteku pandas. Ako ga još niste instalirali, jednostavno pokrenite naredbu `pip install pandas` u svom terminalu ili komandnoj liniji.

import pandas as pd

Nakon što uvezemo biblioteku pandas, napravimo uzorak DataFrame-a sa nedostajućim vrijednostima, koji ćemo koristiti u ovom članku da demonstriramo različite tehnike brojanja vrijednosti koje nedostaju.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

U ovom primjeru imamo DataFrame sa tri kolone: ​​Ime, Starost i Grad. Nedostaju neke vrijednosti, koje ćemo pronaći i izbrojati u sljedećem odjeljku.

Pronalaženje i brojanje vrijednosti koje nedostaju pomoću isnull() i sum()

Prva metoda za brojanje vrijednosti koje nedostaju u pandas DataFrameu je korištenje isnull() funkcija. Ova funkcija vraća DataFrame istog oblika kao original, ali sa vrijednostima True ili False koje pokazuju da li odgovarajući unos nedostaje (tj. sadrži None ili NaN) ili ne.

missing_values = df.isnull()

Sada imamo DataFrame istog oblika, sa True vrijednostima koje ukazuju na nedostajuće unose. Da izbrojimo ove nedostajuće vrijednosti, možemo jednostavno koristiti suma() funkcija. Koristeći ga preko DataFrame-a, možemo dobiti broj vrijednosti koje nedostaju za svaku kolonu.

count_missing_values = df.isnull().sum()

Ovo će nam dati pandas seriju s brojem vrijednosti koje nedostaju za svaku kolonu u našem DataFrameu.

Alternativni pristup: korištenje isna() i sum()

Drugi pristup za brojanje vrijednosti koje nedostaju u pandas DataFrameu je korištenje isna() funkcija. To je pseudonim za isnull() i radi na isti način.

count_missing_values = df.isna().sum()

Ovo će dati isti rezultat kao prethodni pristup, računajući broj vrijednosti koje nedostaju za svaku kolonu u našem DataFrameu.

Brojanje nedostajućih vrijednosti u cijelom okviru podataka

Ako želimo pronaći ukupan broj vrijednosti koje nedostaju u cijelom DataFrameu, možemo jednostavno ulančati još jednu suma() funkcija nakon prve funkcije sum().

total_missing_values = df.isnull().sum().sum()

Ovo će vratiti ukupan broj vrijednosti koje nedostaju u cijelom DataFrameu.

Ukratko, rukovanje nedostajućim vrijednostima u pandama je ključni korak u fazi čišćenja i predobrade podataka. Korištenjem funkcija isnull() ili isna(), u kombinaciji s funkcijom sum(), možemo efikasno prebrojati broj vrijednosti koje nedostaju u našem DataFrameu, što olakšava rješavanje problema s podacima koji nedostaju u našoj analizi.

Slični postovi:

Ostavite komentar