Løst: Får antallet af manglende værdier i pandaer

Pandas er et meget brugt open source-datamanipulationsbibliotek til Python. Det giver datastrukturer og funktioner, der er nødvendige for effektivt at manipulere og analysere store datasæt. Et almindeligt problem, som dataforskere og analytikere støder på, mens de bruger pandaer, er at håndtere manglende værdier i datasættet. I denne artikel vil vi undersøge, hvordan man tæller antallet af manglende værdier i en pandas DataFrame ved hjælp af forskellige teknikker, trin-for-trin forklaringer af koden og dykker dybere ned i nogle af de biblioteker og funktioner, der er involveret i at løse dette problem.

Optælling af manglende værdier i pandaer

For at begynde skal vi først importere panda-biblioteket. Hvis du ikke har installeret det endnu, skal du blot køre kommandoen `pip install pandas` i din terminal eller kommandoprompt.

import pandas as pd

Når vi har importeret pandas-biblioteket, lad os skabe et eksempel på DataFrame med manglende værdier, som vi vil bruge gennem denne artikel til at demonstrere forskellige teknikker til at tælle manglende værdier.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

I dette eksempel har vi en DataFrame med tre kolonner: Navn, Alder og By. Der mangler nogle værdier, som vi finder og tæller i næste afsnit.

Finde og tælle manglende værdier ved hjælp af isnull() og sum()

Den første metode til at tælle manglende værdier i en pandas DataFrame er ved at bruge isnull() fungere. Denne funktion returnerer en DataFrame med samme form som originalen, men med True eller False værdier, der angiver, om den tilsvarende post mangler (dvs. indeholder None eller NaN) eller ej.

missing_values = df.isnull()

Nu har vi en DataFrame af samme form, med True-værdier, der indikerer manglende poster. For at tælle disse manglende værdier kan vi blot bruge sum() fungere. Ved at bruge det over DataFrame kan vi få antallet af manglende værdier for hver kolonne.

count_missing_values = df.isnull().sum()

Dette vil give os en panda-serie med antallet af manglende værdier for hver kolonne i vores DataFrame.

Alternativ tilgang: Brug af isna() og sum()

En anden tilgang til at tælle manglende værdier i en pandas DataFrame er ved at bruge isna() fungere. Det er et alias for isnull() og fungerer på samme måde.

count_missing_values = df.isna().sum()

Dette vil give det samme resultat som den tidligere tilgang, idet man tæller antallet af manglende værdier for hver kolonne i vores DataFrame.

Optælling af manglende værdier i hele datarammen

Hvis vi ønsker at finde det samlede antal manglende værdier i hele DataFrame, kan vi blot kæde en anden sum() funktion efter den første sum() funktion.

total_missing_values = df.isnull().sum().sum()

Dette vil returnere det samlede antal manglende værdier i hele DataFrame.

Sammenfattende er håndtering af manglende værdier i pandaer et afgørende skridt i datarensnings- og forbehandlingsfasen. Ved at bruge funktionerne isnull() eller isna() i kombination med sum()-funktionen kan vi effektivt tælle antallet af manglende værdier i vores DataFrame, hvilket gør det nemmere at adressere og håndtere manglende dataproblemer i vores analyse.

Relaterede indlæg:

Efterlad en kommentar