Löst: få antalet saknade värden i pandor

Pandas är ett allmänt använt datamanipuleringsbibliotek med öppen källkod för Python. Det tillhandahåller datastrukturer och funktioner som behövs för att effektivt manipulera och analysera stora datamängder. Ett vanligt problem som dataforskare och analytiker stöter på när de använder pandor är att hantera saknade värden i datamängden. I den här artikeln kommer vi att utforska hur man räknar antalet saknade värden i en pandas DataFrame med hjälp av olika tekniker, steg-för-steg-förklaringar av koden och fördjupar oss i några av de bibliotek och funktioner som är involverade i att lösa detta problem.

Räknar saknade värden i pandor

Till att börja med måste vi först importera pandasbiblioteket. Om du inte har installerat det än, kör helt enkelt kommandot `pip install pandas` i din terminal eller kommandotolk.

import pandas as pd

När vi har importerat pandasbiblioteket, låt oss skapa ett exempel på DataFrame med saknade värden, som vi kommer att använda genom hela den här artikeln för att demonstrera olika tekniker för att räkna saknade värden.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

I det här exemplet har vi en DataFrame med tre kolumner: Namn, Ålder och Stad. Det saknas några värden, som vi kommer att hitta och räkna i nästa avsnitt.

Hitta och räkna saknade värden med isnull() och sum()

Den första metoden för att räkna saknade värden i en pandas DataFrame är att använda är inget() fungera. Denna funktion returnerar en DataFrame med samma form som originalet, men med True eller False-värden som indikerar om motsvarande post saknas (dvs. innehåller None eller NaN) eller inte.

missing_values = df.isnull()

Nu har vi en DataFrame med samma form, med True-värden som indikerar saknade poster. För att räkna dessa saknade värden kan vi helt enkelt använda belopp() fungera. Genom att använda den över DataFrame kan vi få antalet saknade värden för varje kolumn.

count_missing_values = df.isnull().sum()

Detta kommer att ge oss en pandasserie med antalet saknade värden för varje kolumn i vår DataFrame.

Alternativ tillvägagångssätt: Använda isna() och sum()

Ett annat sätt att räkna saknade värden i en pandas DataFrame är att använda isna() fungera. Det är ett alias för isnull() och fungerar på samma sätt.

count_missing_values = df.isna().sum()

Detta ger samma resultat som det tidigare tillvägagångssättet, och räknar antalet saknade värden för varje kolumn i vår DataFrame.

Räknar saknade värden i hela dataramen

Om vi ​​vill hitta det totala antalet saknade värden i hela DataFrame kan vi helt enkelt kedja ett till belopp() funktion efter den första sum()-funktionen.

total_missing_values = df.isnull().sum().sum()

Detta kommer att returnera det totala antalet saknade värden i hela DataFrame.

Sammanfattningsvis är hantering av saknade värden i pandor ett avgörande steg i datarensnings- och förbearbetningsfasen. Genom att använda isnull()- eller isna()-funktionerna, i kombination med sum()-funktionen, kan vi effektivt räkna antalet saknade värden i vår DataFrame, vilket gör det lättare att hantera och hantera saknade dataproblem i vår analys.

Relaterade inlägg:

Lämna en kommentar