Risolto: ottenere il numero di valori mancanti nei panda

Pandas è una libreria di manipolazione dei dati open source ampiamente utilizzata per Python. Fornisce le strutture dati e le funzioni necessarie per manipolare e analizzare efficacemente grandi set di dati. Un problema comune che i data scientist e gli analisti incontrano durante l'utilizzo dei panda è la gestione dei valori mancanti nel set di dati. In questo articolo, esploreremo come contare il numero di valori mancanti in un DataFrame panda utilizzando varie tecniche, spiegazioni dettagliate del codice e approfondiremo alcune delle librerie e delle funzioni coinvolte nella risoluzione di questo problema.

Conteggio dei valori mancanti nei panda

Per iniziare, dobbiamo prima importare la libreria dei panda. Se non l'hai ancora installato, esegui semplicemente il comando `pip install pandas` nel terminale o nel prompt dei comandi.

import pandas as pd

Dopo aver importato la libreria pandas, creiamo un DataFrame di esempio con valori mancanti, che useremo in questo articolo per dimostrare diverse tecniche di conteggio dei valori mancanti.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

In questo esempio, abbiamo un DataFrame con tre colonne: Nome, Età e Città. Ci sono alcuni valori mancanti, che troveremo e conteremo nella prossima sezione.

Trovare e contare i valori mancanti usando isnull() e sum()

Il primo metodo per contare i valori mancanti in un DataFrame panda consiste nell'usare il file è zero() funzione. Questa funzione restituisce un DataFrame della stessa forma dell'originale, ma con valori True o False che indicano se la voce corrispondente è mancante (cioè contiene None o NaN) o meno.

missing_values = df.isnull()

Ora abbiamo un DataFrame della stessa forma, con i valori True che indicano le voci mancanti. Per contare questi valori mancanti, possiamo semplicemente usare il somma() funzione. Usandolo su DataFrame, possiamo ottenere il numero di valori mancanti per ogni colonna.

count_missing_values = df.isnull().sum()

Questo ci darà una serie di panda con il numero di valori mancanti per ogni colonna nel nostro DataFrame.

Approccio alternativo: utilizzo di isna() e sum()

Un altro approccio per contare i valori mancanti in un DataFrame panda consiste nell'usare il file isna() funzione. È un alias per isnull() e funziona allo stesso modo.

count_missing_values = df.isna().sum()

Questo darà lo stesso risultato dell'approccio precedente, contando il numero di valori mancanti per ogni colonna nel nostro DataFrame.

Conteggio dei valori mancanti nell'intero dataframe

Se vogliamo trovare il numero totale di valori mancanti nell'intero DataFrame, possiamo semplicemente concatenarne un altro somma() funzione dopo la prima funzione sum().

total_missing_values = df.isnull().sum().sum()

Ciò restituirà il numero totale di valori mancanti nell'intero DataFrame.

In sintesi, la gestione dei valori mancanti nei panda è un passaggio cruciale nella fase di pulizia e pre-elaborazione dei dati. Utilizzando le funzioni isnull() o isna(), in combinazione con la funzione sum(), possiamo contare in modo efficiente il numero di valori mancanti nel nostro DataFrame, semplificando la risoluzione e la gestione dei problemi relativi ai dati mancanti nella nostra analisi.

Related posts:

Lascia un tuo commento