Pandas to szeroko stosowana biblioteka do manipulacji danymi typu open source dla Pythona. Zapewnia struktury danych i funkcje potrzebne do skutecznego manipulowania i analizowania dużych zbiorów danych. Jednym z typowych problemów, z jakimi spotykają się analitycy i analitycy danych podczas korzystania z pand, jest obsługa brakujących wartości w zbiorze danych. W tym artykule zbadamy, jak policzyć liczbę brakujących wartości w pandas DataFrame przy użyciu różnych technik, wyjaśnimy krok po kroku kod i zagłębimy się w niektóre biblioteki i funkcje zaangażowane w rozwiązanie tego problemu.
Zliczanie brakujących wartości w Pandach
Aby rozpocząć, musimy najpierw zaimportować bibliotekę pandas. Jeśli jeszcze go nie zainstalowałeś, po prostu uruchom polecenie `pip install pandas` w terminalu lub wierszu polecenia.
import pandas as pd
Po zaimportowaniu biblioteki pandas utwórzmy przykładową ramkę DataFrame z brakującymi wartościami, której będziemy używać w tym artykule, aby zademonstrować różne techniki liczenia brakujących wartości.
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
W tym przykładzie mamy DataFrame z trzema kolumnami: Nazwa, Wiek i Miasto. Brakuje pewnych wartości, które znajdziemy i policzymy w następnej sekcji.
Znajdowanie i zliczanie braków danych za pomocą funkcji isnull() i sum()
Pierwszą metodą zliczania brakujących wartości w pandas DataFrame jest użycie metody isnull() funkcjonować. Ta funkcja zwraca DataFrame o takim samym kształcie jak oryginał, ale z wartościami True lub False wskazującymi, czy brakuje odpowiedniego wpisu (tj. zawiera None lub NaN), czy nie.
missing_values = df.isnull()
Teraz mamy DataFrame o tym samym kształcie, z wartościami True wskazującymi na brakujące wpisy. Aby policzyć te brakujące wartości, możemy po prostu użyć funkcji suma() funkcjonować. Używając go w DataFrame, możemy uzyskać liczbę brakujących wartości dla każdej kolumny.
count_missing_values = df.isnull().sum()
To da nam serię pand z liczbą brakujących wartości dla każdej kolumny w naszej ramce danych.
Podejście alternatywne: użycie funkcji isna() i sum()
Innym podejściem do liczenia brakujących wartości w pandas DataFrame jest użycie metody isna() funkcjonować. Jest to alias funkcji isnull() i działa w ten sam sposób.
count_missing_values = df.isna().sum()
Da to taki sam wynik jak poprzednie podejście, zliczając liczbę brakujących wartości dla każdej kolumny w naszej DataFrame.
Zliczanie brakujących wartości w całej ramce danych
Jeśli chcemy znaleźć całkowitą liczbę brakujących wartości w całej ramce DataFrame, możemy po prostu połączyć kolejne suma() funkcja po pierwszej funkcji sum().
total_missing_values = df.isnull().sum().sum()
Spowoduje to zwrócenie całkowitej liczby brakujących wartości w całej ramce DataFrame.
Podsumowując, obsługa brakujących wartości w pandach jest kluczowym krokiem w fazie czyszczenia i wstępnego przetwarzania danych. Używając funkcji isnull() lub isna() w połączeniu z funkcją sum() możemy skutecznie policzyć brakujące wartości w naszej DataFrame, ułatwiając rozwiązywanie problemów z brakującymi danymi i zarządzanie nimi w naszej analizie.