Løst: få antall manglende verdier i pandaer

Pandas er et mye brukt åpen kildekode-datamanipulasjonsbibliotek for Python. Det gir datastrukturer og funksjoner som trengs for å effektivt manipulere og analysere store datasett. Et vanlig problem som dataforskere og analytikere møter når de bruker pandaer, er å håndtere manglende verdier i datasettet. I denne artikkelen vil vi utforske hvordan du kan telle antall manglende verdier i en pandas DataFrame ved å bruke ulike teknikker, trinnvise forklaringer av koden, og dykke dypere inn i noen av bibliotekene og funksjonene som er involvert i å løse dette problemet.

Å telle manglende verdier i pandaer

For å begynne, må vi først importere panda-biblioteket. Hvis du ikke har installert det ennå, kjør bare kommandoen `pip install pandas` i terminalen eller ledeteksten.

import pandas as pd

Når vi har importert pandas-biblioteket, la oss lage et eksempel på DataFrame med manglende verdier, som vi vil bruke gjennom denne artikkelen for å demonstrere forskjellige teknikker for å telle manglende verdier.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

I dette eksemplet har vi en DataFrame med tre kolonner: Navn, Alder og By. Det mangler noen verdier, som vi vil finne og telle i neste avsnitt.

Finne og telle manglende verdier ved å bruke isnull() og sum()

Den første metoden for å telle manglende verdier i en pandas DataFrame er å bruke isnull() funksjon. Denne funksjonen returnerer en DataFrame med samme form som originalen, men med True eller False-verdier som indikerer om den tilsvarende oppføringen mangler (dvs. inneholder None eller NaN) eller ikke.

missing_values = df.isnull()

Nå har vi en DataFrame med samme form, med sanne verdier som indikerer manglende oppføringer. For å telle disse manglende verdiene kan vi ganske enkelt bruke sum() funksjon. Ved å bruke den over DataFrame kan vi få antall manglende verdier for hver kolonne.

count_missing_values = df.isnull().sum()

Dette vil gi oss en panda-serie med antall manglende verdier for hver kolonne i vår DataFrame.

Alternativ tilnærming: Bruke isna() og sum()

En annen tilnærming til å telle manglende verdier i en pandas DataFrame er å bruke isna() funksjon. Det er et alias for isnull() og fungerer på samme måte.

count_missing_values = df.isna().sum()

Dette vil gi samme resultat som den forrige tilnærmingen, ved å telle antall manglende verdier for hver kolonne i vår DataFrame.

Teller manglende verdier i hele datarammen

Hvis vi ønsker å finne det totale antallet manglende verdier i hele DataFrame, kan vi ganske enkelt lenke en annen sum() funksjon etter den første sum() funksjonen.

total_missing_values = df.isnull().sum().sum()

Dette vil returnere det totale antallet manglende verdier i hele DataFrame.

Oppsummert er håndtering av manglende verdier i pandaer et avgjørende trinn i datarense- og forhåndsbehandlingsfasen. Ved å bruke isnull()- eller isna()-funksjonene, i kombinasjon med sum()-funksjonen, kan vi effektivt telle antall manglende verdier i vår DataFrame, noe som gjør det enklere å adressere og håndtere manglende dataproblemer i analysen vår.

Relaterte innlegg:

Legg igjen en kommentar