Gelöst: Abrufen der Anzahl fehlender Werte in Pandas

Pandas ist eine weit verbreitete Open-Source-Datenbearbeitungsbibliothek für Python. Es stellt Datenstrukturen und Funktionen bereit, die für die effektive Bearbeitung und Analyse großer Datensätze erforderlich sind. Ein häufiges Problem, auf das Data Scientists und Analysten bei der Verwendung von Pandas stoßen, ist der Umgang mit fehlenden Werten im Dataset. In diesem Artikel werden wir untersuchen, wie die Anzahl der fehlenden Werte in einem Pandas DataFrame mithilfe verschiedener Techniken und Schritt-für-Schritt-Erklärungen des Codes gezählt werden kann, und uns eingehender mit einigen der Bibliotheken und Funktionen befassen, die an der Lösung dieses Problems beteiligt sind.

Zählen fehlender Werte in Pandas

Zunächst müssen wir zunächst die Pandas-Bibliothek importieren. Wenn Sie es noch nicht installiert haben, führen Sie einfach den Befehl „pip install pandas“ in Ihrem Terminal oder in der Eingabeaufforderung aus.

import pandas as pd

Nachdem wir die Pandas-Bibliothek importiert haben, erstellen wir einen Beispieldatenrahmen mit fehlenden Werten, den wir in diesem Artikel verwenden, um verschiedene Techniken zum Zählen fehlender Werte zu demonstrieren.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

In diesem Beispiel haben wir einen DataFrame mit drei Spalten: Name, Alter und Stadt. Es gibt einige fehlende Werte, die wir im nächsten Abschnitt finden und zählen werden.

Suchen und Zählen fehlender Werte mit isnull() und sum()

Die erste Methode zum Zählen fehlender Werte in einem Pandas DataFrame ist die Verwendung der ist Null() Funktion. Diese Funktion gibt einen DataFrame derselben Form wie das Original zurück, jedoch mit True- oder False-Werten, die angeben, ob der entsprechende Eintrag fehlt (dh None oder NaN enthält) oder nicht.

missing_values = df.isnull()

Jetzt haben wir einen DataFrame der gleichen Form, wobei True-Werte fehlende Einträge anzeigen. Um diese fehlenden Werte zu zählen, können wir einfach die verwenden Summe() Funktion. Indem wir es über den DataFrame verwenden, können wir die Anzahl der fehlenden Werte für jede Spalte abrufen.

count_missing_values = df.isnull().sum()

Dadurch erhalten wir eine Pandas-Serie mit der Anzahl der fehlenden Werte für jede Spalte in unserem DataFrame.

Alternativer Ansatz: Verwendung von isna() und sum()

Ein weiterer Ansatz zum Zählen fehlender Werte in einem Pandas DataFrame ist die Verwendung von ista() Funktion. Es ist ein Alias ​​für isnull() und funktioniert auf die gleiche Weise.

count_missing_values = df.isna().sum()

Dies ergibt das gleiche Ergebnis wie der vorherige Ansatz, wobei die Anzahl der fehlenden Werte für jede Spalte in unserem DataFrame gezählt wird.

Zählen fehlender Werte im gesamten DataFrame

Wenn wir die Gesamtzahl der fehlenden Werte im gesamten DataFrame finden möchten, können wir einfach einen anderen verketten Summe() Funktion nach der ersten Funktion sum().

total_missing_values = df.isnull().sum().sum()

Dadurch wird die Gesamtzahl der fehlenden Werte im gesamten DataFrame zurückgegeben.

Zusammenfassend lässt sich sagen, dass der Umgang mit fehlenden Werten in Pandas ein entscheidender Schritt in der Datenbereinigungs- und Vorverarbeitungsphase ist. Durch die Verwendung der Funktionen isnull() oder isna() in Kombination mit der Funktion sum() können wir die Anzahl der fehlenden Werte in unserem DataFrame effizient zählen, was es einfacher macht, Probleme mit fehlenden Daten in unserer Analyse anzugehen und zu verwalten.

Zusammenhängende Posts:

Hinterlasse einen Kommentar