Resuelto: obtener la cantidad de valores faltantes en pandas

Pandas es una biblioteca de manipulación de datos de código abierto ampliamente utilizada para Python. Proporciona las estructuras de datos y las funciones necesarias para manipular y analizar de forma eficaz grandes conjuntos de datos. Un problema común que encuentran los científicos y analistas de datos al usar pandas es el manejo de los valores faltantes en el conjunto de datos. En este artículo, exploraremos cómo contar la cantidad de valores faltantes en un DataFrame de pandas utilizando varias técnicas, explicaciones paso a paso del código y profundizaremos en algunas de las bibliotecas y funciones involucradas en la solución de este problema.

Contando valores faltantes en Pandas

Para comenzar, primero debemos importar la biblioteca de pandas. Si aún no lo ha instalado, simplemente ejecute el comando `pip install pandas` en su terminal o símbolo del sistema.

import pandas as pd

Una vez que hayamos importado la biblioteca pandas, creemos un marco de datos de muestra con valores faltantes, que usaremos a lo largo de este artículo para demostrar diferentes técnicas para contar valores faltantes.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

En este ejemplo, tenemos un DataFrame con tres columnas: Nombre, Edad y Ciudad. Hay algunos valores faltantes, que encontraremos y contaremos en la siguiente sección.

Encontrar y contar valores faltantes usando isnull() y sum()

El primer método para contar los valores faltantes en un DataFrame de pandas es usando el es nulo () función. Esta función devuelve un DataFrame con la misma forma que el original, pero con valores True o False que indican si falta la entrada correspondiente (es decir, contiene None o NaN) o no.

missing_values = df.isnull()

Ahora tenemos un DataFrame de la misma forma, con valores True que indican entradas faltantes. Para contar estos valores perdidos, simplemente podemos usar el sum () función. Al usarlo sobre el DataFrame, podemos obtener la cantidad de valores faltantes para cada columna.

count_missing_values = df.isnull().sum()

Esto nos dará una serie de pandas con la cantidad de valores faltantes para cada columna en nuestro DataFrame.

Enfoque alternativo: usar isna() y sum()

Otro enfoque para contar los valores faltantes en un DataFrame de pandas es usar el esna() función. Es un alias para isnull() y funciona de la misma manera.

count_missing_values = df.isna().sum()

Esto dará el mismo resultado que el enfoque anterior, contando la cantidad de valores faltantes para cada columna en nuestro DataFrame.

Contando los valores faltantes en todo el marco de datos

Si queremos encontrar el número total de valores faltantes en todo el DataFrame, simplemente podemos encadenar otro sum () después de la primera función sum().

total_missing_values = df.isnull().sum().sum()

Esto devolverá el número total de valores faltantes en todo el DataFrame.

En resumen, el manejo de valores faltantes en pandas es un paso crucial en la fase de limpieza y preprocesamiento de datos. Al usar las funciones isnull() o isna(), en combinación con la función sum(), podemos contar de manera eficiente la cantidad de valores faltantes en nuestro DataFrame, lo que facilita abordar y administrar los problemas de datos faltantes en nuestro análisis.

Artículos Relacionados:

Deja un comentario