Opgelost: het aantal ontbrekende waarden in panda's ophalen

Pandas is een veelgebruikte open-source datamanipulatiebibliotheek voor Python. Het biedt datastructuren en functies die nodig zijn om grote datasets effectief te manipuleren en te analyseren. Een veelvoorkomend probleem dat datawetenschappers en -analisten tegenkomen bij het gebruik van panda's, is het omgaan met ontbrekende waarden in de dataset. In dit artikel zullen we onderzoeken hoe we het aantal ontbrekende waarden in een Panda DataFrame kunnen tellen met behulp van verschillende technieken, stapsgewijze uitleg van de code en dieper ingaan op enkele van de bibliotheken en functies die betrokken zijn bij het oplossen van dit probleem.

Ontbrekende waarden tellen in panda's

Om te beginnen moeten we eerst de pandabibliotheek importeren. Als je het nog niet hebt geïnstalleerd, voer je gewoon de opdracht `pip install pandas` uit in je terminal of opdrachtprompt.

import pandas as pd

Nadat we de panda's-bibliotheek hebben geïmporteerd, gaan we een voorbeeld van een DataFrame maken met ontbrekende waarden, die we in dit artikel zullen gebruiken om verschillende technieken voor het tellen van ontbrekende waarden te demonstreren.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

In dit voorbeeld hebben we een DataFrame met drie kolommen: Naam, Leeftijd en Stad. Er zijn enkele ontbrekende waarden, die we in de volgende sectie zullen vinden en tellen.

Ontbrekende waarden zoeken en tellen met behulp van isnull() en sum()

De eerste methode om ontbrekende waarden in een Panda's DataFrame te tellen, is door de is niets() functie. Deze functie retourneert een DataFrame met dezelfde vorm als het origineel, maar met True- of False-waarden die aangeven of de corresponderende invoer ontbreekt (dwz geen of NaN bevat) of niet.

missing_values = df.isnull()

Nu hebben we een DataFrame met dezelfde vorm, met True-waarden die ontbrekende invoer aangeven. Om deze ontbrekende waarden te tellen, kunnen we eenvoudig de som() functie. Door het over het DataFrame te gebruiken, kunnen we het aantal ontbrekende waarden voor elke kolom krijgen.

count_missing_values = df.isnull().sum()

Dit geeft ons een panda-reeks met het aantal ontbrekende waarden voor elke kolom in ons DataFrame.

Alternatieve benadering: isna() en sum() gebruiken

Een andere benadering om ontbrekende waarden in een panda's DataFrame te tellen, is door de isna() functie. Het is een alias voor isnull() en werkt op dezelfde manier.

count_missing_values = df.isna().sum()

Dit geeft hetzelfde resultaat als de vorige benadering, waarbij het aantal ontbrekende waarden voor elke kolom in ons DataFrame wordt geteld.

Ontbrekende waarden tellen in het volledige dataframe

Als we het totale aantal ontbrekende waarden in het hele DataFrame willen vinden, kunnen we eenvoudig een andere koppelen som() functie na de eerste som()-functie.

total_missing_values = df.isnull().sum().sum()

Hiermee wordt het totale aantal ontbrekende waarden in het volledige DataFrame geretourneerd.

Samengevat, het afhandelen van ontbrekende waarden in panda's is een cruciale stap in de fase voor het opschonen en voorbewerken van gegevens. Door de functies isnull() of isna() te gebruiken in combinatie met de functie sum() kunnen we efficiënt het aantal ontbrekende waarden in ons DataFrame tellen, waardoor het gemakkelijker wordt om problemen met ontbrekende gegevens in onze analyse aan te pakken en te beheren.

Gerelateerde berichten:

Laat een bericht achter