Rozwiązany: pobieranie liczby brakujących wartości w pandach

Pandas to szeroko stosowana biblioteka do manipulacji danymi typu open source dla Pythona. Zapewnia struktury danych i funkcje potrzebne do skutecznego manipulowania i analizowania dużych zbiorów danych. Jednym z typowych problemów, z jakimi spotykają się analitycy i analitycy danych podczas korzystania z pand, jest obsługa brakujących wartości w zbiorze danych. W tym artykule zbadamy, jak policzyć liczbę brakujących wartości w pandas DataFrame przy użyciu różnych technik, wyjaśnimy krok po kroku kod i zagłębimy się w niektóre biblioteki i funkcje zaangażowane w rozwiązanie tego problemu.

Zliczanie brakujących wartości w Pandach

Aby rozpocząć, musimy najpierw zaimportować bibliotekę pandas. Jeśli jeszcze go nie zainstalowałeś, po prostu uruchom polecenie `pip install pandas` w terminalu lub wierszu polecenia.

import pandas as pd

Po zaimportowaniu biblioteki pandas utwórzmy przykładową ramkę DataFrame z brakującymi wartościami, której będziemy używać w tym artykule, aby zademonstrować różne techniki liczenia brakujących wartości.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

W tym przykładzie mamy DataFrame z trzema kolumnami: Nazwa, Wiek i Miasto. Brakuje pewnych wartości, które znajdziemy i policzymy w następnej sekcji.

Znajdowanie i zliczanie braków danych za pomocą funkcji isnull() i sum()

Pierwszą metodą zliczania brakujących wartości w pandas DataFrame jest użycie metody isnull() funkcjonować. Ta funkcja zwraca DataFrame o takim samym kształcie jak oryginał, ale z wartościami True lub False wskazującymi, czy brakuje odpowiedniego wpisu (tj. zawiera None lub NaN), czy nie.

missing_values = df.isnull()

Teraz mamy DataFrame o tym samym kształcie, z wartościami True wskazującymi na brakujące wpisy. Aby policzyć te brakujące wartości, możemy po prostu użyć funkcji suma() funkcjonować. Używając go w DataFrame, możemy uzyskać liczbę brakujących wartości dla każdej kolumny.

count_missing_values = df.isnull().sum()

To da nam serię pand z liczbą brakujących wartości dla każdej kolumny w naszej ramce danych.

Podejście alternatywne: użycie funkcji isna() i sum()

Innym podejściem do liczenia brakujących wartości w pandas DataFrame jest użycie metody isna() funkcjonować. Jest to alias funkcji isnull() i działa w ten sam sposób.

count_missing_values = df.isna().sum()

Da to taki sam wynik jak poprzednie podejście, zliczając liczbę brakujących wartości dla każdej kolumny w naszej DataFrame.

Zliczanie brakujących wartości w całej ramce danych

Jeśli chcemy znaleźć całkowitą liczbę brakujących wartości w całej ramce DataFrame, możemy po prostu połączyć kolejne suma() funkcja po pierwszej funkcji sum().

total_missing_values = df.isnull().sum().sum()

Spowoduje to zwrócenie całkowitej liczby brakujących wartości w całej ramce DataFrame.

Podsumowując, obsługa brakujących wartości w pandach jest kluczowym krokiem w fazie czyszczenia i wstępnego przetwarzania danych. Używając funkcji isnull() lub isna() w połączeniu z funkcją sum() możemy skutecznie policzyć brakujące wartości w naszej DataFrame, ułatwiając rozwiązywanie problemów z brakującymi danymi i zarządzanie nimi w naszej analizie.

Powiązane posty:

Zostaw komentarz