Rezolvat: obținerea numărului de valori lipsă în panda

Pandas este o bibliotecă de manipulare a datelor open-source utilizată pe scară largă pentru Python. Oferă structuri de date și funcții necesare pentru a manipula și analiza în mod eficient seturi mari de date. O problemă obișnuită pe care o întâmpină oamenii de știință și analiștii de date în timp ce folosesc panda este gestionarea valorilor lipsă din setul de date. În acest articol, vom explora cum să numărăm numărul de valori lipsă dintr-un panda DataFrame folosind diferite tehnici, explicații pas cu pas ale codului și vom aprofunda unele dintre bibliotecile și funcțiile implicate în rezolvarea acestei probleme.

Numărarea valorilor lipsă în Pandas

Pentru a începe, trebuie să importam mai întâi biblioteca panda. Dacă nu l-ați instalat încă, pur și simplu rulați comanda `pip install pandas` în terminalul sau promptul de comandă.

import pandas as pd

Odată ce am importat biblioteca panda, să creăm un exemplu de DataFrame cu valori lipsă, pe care îl vom folosi pe parcursul acestui articol pentru a demonstra diferite tehnici de numărare a valorilor lipsă.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

În acest exemplu, avem un DataFrame cu trei coloane: Nume, Vârstă și Oraș. Există câteva valori lipsă, pe care le vom găsi și le vom număra în secțiunea următoare.

Găsirea și numărarea valorilor lipsă folosind isnull() și sum()

Prima metodă de a număra valorile lipsă într-un Pandas DataFrame este folosirea isnull() funcţie. Această funcție returnează un DataFrame de aceeași formă ca și originalul, dar cu valori True sau False care indică dacă intrarea corespunzătoare lipsește (adică conține None sau NaN) sau nu.

missing_values = df.isnull()

Acum avem un DataFrame de aceeași formă, cu valorile adevărate indicând intrările lipsă. Pentru a număra aceste valori lipsă, putem folosi pur și simplu sumă() funcţie. Utilizând-o peste DataFrame, putem obține numărul de valori lipsă pentru fiecare coloană.

count_missing_values = df.isnull().sum()

Acest lucru ne va oferi o serie panda cu numărul de valori lipsă pentru fiecare coloană din DataFrame.

Abordare alternativă: folosind isna() și sum()

O altă abordare pentru a număra valorile lipsă într-un Pandas DataFrame este folosirea isna() funcţie. Este un alias pentru isnull() și funcționează în același mod.

count_missing_values = df.isna().sum()

Acest lucru va da același rezultat ca și abordarea anterioară, numărând numărul de valori lipsă pentru fiecare coloană din DataFrame.

Numărarea valorilor lipsă în întregul DataFrame

Dacă vrem să găsim numărul total de valori lipsă în întregul DataFrame, putem pur și simplu să înlănțuim altul sumă() funcție după prima funcție sum().

total_missing_values = df.isnull().sum().sum()

Aceasta va returna numărul total de valori lipsă din întregul DataFrame.

Pe scurt, gestionarea valorilor lipsă în panda este un pas crucial în faza de curățare și preprocesare a datelor. Folosind funcțiile isnull() sau isna(), în combinație cu funcția sum(), putem număra eficient numărul de valori lipsă din DataFrame, făcând mai ușor să rezolvăm și să gestionăm problemele de date lipsă în analiza noastră.

Postări asemănatoare:

Lăsați un comentariu