Solucionat: obtenir el nombre de valors que falten en pandes

Pandas és una biblioteca de manipulació de dades de codi obert àmpliament utilitzada per a Python. Proporciona estructures de dades i funcions necessàries per manipular i analitzar de manera eficaç grans conjunts de dades. Un dels problemes habituals amb què es troben els científics i analistes de dades mentre utilitzen pandas és gestionar els valors que falten al conjunt de dades. En aquest article, explorarem com comptar el nombre de valors que falten en un DataFrame pandas mitjançant diverses tècniques, explicacions pas a pas del codi i aprofundirem en algunes de les biblioteques i funcions implicades per resoldre aquest problema.

Comptant els valors que falten a Pandas

Per començar, primer hem d'importar la biblioteca pandas. Si encara no l'heu instal·lat, només cal que executeu l'ordre `pip install pandas` al vostre terminal o indicador d'ordres.

import pandas as pd

Un cop hàgim importat la biblioteca pandas, creem un DataFrame de mostra amb valors que falten, que utilitzarem al llarg d'aquest article per demostrar diferents tècniques per comptar els valors que falten.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

En aquest exemple, tenim un DataFrame amb tres columnes: Nom, Edat i Ciutat. Hi ha alguns valors que falten, que trobarem i comptarem a la següent secció.

Trobar i comptar els valors que falten mitjançant isnull() i sum()

El primer mètode per comptar els valors que falten en un DataFrame pandas és utilitzar el isnull() funció. Aquesta funció retorna un DataFrame de la mateixa forma que l'original, però amb valors True o False que indiquen si falta l'entrada corresponent (és a dir, conté Cap o NaN) o no.

missing_values = df.isnull()

Ara tenim un DataFrame de la mateixa forma, amb valors True que indiquen les entrades que falten. Per comptar aquests valors que falten, simplement podem utilitzar el suma() funció. En utilitzar-lo sobre el DataFrame, podem obtenir el nombre de valors que falten per a cada columna.

count_missing_values = df.isnull().sum()

Això ens donarà una sèrie pandas amb el nombre de valors que falten per a cada columna del nostre DataFrame.

Enfocament alternatiu: utilitzant isna() i sum()

Un altre enfocament per comptar els valors que falten en un DataFrame pandas és utilitzar el isna () funció. És un àlies per a isnull() i funciona de la mateixa manera.

count_missing_values = df.isna().sum()

Això donarà el mateix resultat que l'enfocament anterior, comptant el nombre de valors que falten per a cada columna del nostre DataFrame.

Recompte dels valors que falten a tot el DataFrame

Si volem trobar el nombre total de valors que falten a tot el DataFrame, simplement podem encadenar-ne un altre suma() funció després de la primera funció sum().

total_missing_values = df.isnull().sum().sum()

Això retornarà el nombre total de valors que falten a tot el DataFrame.

En resum, la gestió dels valors que falten en pandas és un pas crucial en la fase de neteja i preprocessament de dades. Mitjançant l'ús de les funcions isnull() o isna(), en combinació amb la funció sum(), podem comptar de manera eficient el nombre de valors que falten al nostre DataFrame, facilitant la gestió i la gestió dels problemes de dades que falten a la nostra anàlisi.

Articles Relacionats:

Deixa el teu comentari