Išspręsta: gauti trūkstamų pandų reikšmių skaičių

Pandas yra plačiai naudojama atvirojo kodo duomenų apdorojimo biblioteka, skirta Python. Jame pateikiamos duomenų struktūros ir funkcijos, reikalingos norint efektyviai valdyti ir analizuoti didelius duomenų rinkinius. Viena dažna problema, su kuria susiduria duomenų mokslininkai ir analitikai naudodami pandas, yra trūkstamų duomenų rinkinio verčių tvarkymas. Šiame straipsnyje mes išnagrinėsime, kaip suskaičiuoti trūkstamų reikšmių skaičių pandos DataFrame naudojant įvairius metodus, žingsnis po žingsnio paaiškinsime kodą ir gilinsimės į kai kurias bibliotekas ir funkcijas, susijusias su šios problemos sprendimu.

Trūkstamų pandų vertybių skaičiavimas

Norėdami pradėti, pirmiausia turime importuoti pandų biblioteką. Jei dar neįdiegėte, tiesiog paleiskite komandą „pip install pandas“ savo terminale arba komandų eilutėje.

import pandas as pd

Kai importuosime pandų biblioteką, sukurkime duomenų rėmelio pavyzdį su trūkstamomis reikšmėmis, kuriuos naudosime šiame straipsnyje norėdami parodyti skirtingus trūkstamų reikšmių skaičiavimo būdus.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Šiame pavyzdyje turime DataFrame su trimis stulpeliais: Vardas, Amžius ir Miestas. Trūksta kai kurių reikšmių, kurias rasime ir suskaičiuosime kitame skyriuje.

Trūkstamų reikšmių radimas ir skaičiavimas naudojant isnull() ir sum()

Pirmasis būdas skaičiuoti trūkstamas reikšmes pandos duomenų rėmelyje yra naudoti isnull() funkcija. Ši funkcija grąžina duomenų rėmelį, kurio forma yra tokia pati kaip ir originalas, bet su True arba False reikšmėmis, nurodančiomis, ar trūksta atitinkamo įrašo (ty yra None arba NaN), ar ne.

missing_values = df.isnull()

Dabar turime tokios pat formos duomenų rėmelį, kurio tikrosios reikšmės rodo trūkstamus įrašus. Norėdami suskaičiuoti šias trūkstamas reikšmes, galime tiesiog naudoti suma() funkcija. Naudodami jį per DataFrame, galime gauti trūkstamų kiekvieno stulpelio reikšmių skaičių.

count_missing_values = df.isnull().sum()

Tai suteiks mums pandų seriją su trūkstamų verčių skaičiumi kiekviename mūsų duomenų rėmelio stulpelyje.

Alternatyvus metodas: naudojant isna() ir sum()

Kitas būdas skaičiuoti trūkstamas reikšmes pandos duomenų rėmelyje yra naudoti isna () funkcija. Tai yra isnull() slapyvardis ir veikia taip pat.

count_missing_values = df.isna().sum()

Tai duos tą patį rezultatą kaip ir ankstesnis metodas, skaičiuojant trūkstamų reikšmių skaičių kiekviename mūsų DataFrame stulpelyje.

Trūkstamų reikšmių skaičiavimas visame duomenų rėmelyje

Jei norime rasti bendrą trūkstamų reikšmių skaičių visame DataFrame, galime tiesiog sujungti kitą suma() funkcija po pirmosios sum() funkcijos.

total_missing_values = df.isnull().sum().sum()

Tai grąžins visą trūkstamų reikšmių skaičių visame „DataFrame“.

Apibendrinant galima pasakyti, kad trūkstamų pandų verčių tvarkymas yra esminis duomenų valymo ir išankstinio apdorojimo etapas. Naudodami funkcijas isnull() arba isna() kartu su sum() funkcija, galime efektyviai suskaičiuoti trūkstamų reikšmių skaičių mūsų DataFrame, todėl analizuojant lengviau spręsti ir valdyti trūkstamų duomenų problemas.

Susijusios naujienos:

Palikite komentarą