Résolu : obtenir le nombre de valeurs manquantes dans les pandas

Pandas est une bibliothèque de manipulation de données open source largement utilisée pour Python. Il fournit les structures de données et les fonctions nécessaires pour manipuler et analyser efficacement de grands ensembles de données. Un problème courant rencontré par les data scientists et les analystes lors de l'utilisation de pandas est la gestion des valeurs manquantes dans l'ensemble de données. Dans cet article, nous allons explorer comment compter le nombre de valeurs manquantes dans un DataFrame pandas en utilisant diverses techniques, des explications pas à pas du code, et approfondir certaines des bibliothèques et fonctions impliquées dans la résolution de ce problème.

Compter les valeurs manquantes dans les pandas

Pour commencer, nous devons d'abord importer la bibliothèque pandas. Si vous ne l'avez pas encore installé, exécutez simplement la commande `pip install pandas` dans votre terminal ou invite de commande.

import pandas as pd

Une fois que nous avons importé la bibliothèque pandas, créons un exemple de DataFrame avec des valeurs manquantes, que nous utiliserons tout au long de cet article pour démontrer différentes techniques de comptage des valeurs manquantes.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Dans cet exemple, nous avons un DataFrame avec trois colonnes : Name, Age et City. Il y a des valeurs manquantes, que nous trouverons et comptabiliserons dans la section suivante.

Recherche et comptage des valeurs manquantes à l'aide de isnull() et sum()

La première méthode pour compter les valeurs manquantes dans un pandas DataFrame consiste à utiliser le estnull() fonction. Cette fonction renvoie un DataFrame de la même forme que l'original, mais avec des valeurs True ou False indiquant si l'entrée correspondante est manquante (c'est-à-dire, contient None ou NaN) ou non.

missing_values = df.isnull()

Nous avons maintenant un DataFrame de la même forme, avec des valeurs True indiquant les entrées manquantes. Pour compter ces valeurs manquantes, nous pouvons simplement utiliser le sum () fonction. En l'utilisant sur le DataFrame, nous pouvons obtenir le nombre de valeurs manquantes pour chaque colonne.

count_missing_values = df.isnull().sum()

Cela nous donnera une série de pandas avec le nombre de valeurs manquantes pour chaque colonne de notre DataFrame.

Approche alternative : utilisation de isna() et sum()

Une autre approche pour compter les valeurs manquantes dans un pandas DataFrame consiste à utiliser le n'est pas() fonction. C'est un alias pour isnull() et fonctionne de la même manière.

count_missing_values = df.isna().sum()

Cela donnera le même résultat que l'approche précédente, en comptant le nombre de valeurs manquantes pour chaque colonne de notre DataFrame.

Compter les valeurs manquantes dans l'ensemble du DataFrame

Si nous voulons trouver le nombre total de valeurs manquantes dans l'ensemble du DataFrame, nous pouvons simplement enchaîner un autre sum () fonction après la première fonction sum().

total_missing_values = df.isnull().sum().sum()

Cela renverra le nombre total de valeurs manquantes dans l'ensemble du DataFrame.

En résumé, la gestion des valeurs manquantes dans les pandas est une étape cruciale dans la phase de nettoyage et de prétraitement des données. En utilisant les fonctions isnull() ou isna(), en combinaison avec la fonction sum(), nous pouvons compter efficacement le nombre de valeurs manquantes dans notre DataFrame, ce qui facilite la résolution et la gestion des problèmes de données manquantes dans notre analyse.

Articles connexes

Laisser un commentaire