Vyriešené: získanie počtu chýbajúcich hodnôt v pandách

Pandas je široko používaná open-source knižnica na manipuláciu s dátami pre Python. Poskytuje dátové štruktúry a funkcie potrebné na efektívnu manipuláciu a analýzu veľkých dátových množín. Jedným z bežných problémov, s ktorými sa vedci a analytici stretávajú pri používaní pandy, je spracovanie chýbajúcich hodnôt v súbore údajov. V tomto článku preskúmame, ako spočítať počet chýbajúcich hodnôt v dátovom rámci pandas pomocou rôznych techník, vysvetlenia kódu krok za krokom a hlbšie sa ponoríme do niektorých knižníc a funkcií, ktoré sa podieľajú na riešení tohto problému.

Počítanie chýbajúcich hodnôt v pandách

Na začiatok musíme najprv importovať knižnicu pandy. Ak ste ho ešte nenainštalovali, jednoducho spustite príkaz `pip install pandas` v termináli alebo príkazovom riadku.

import pandas as pd

Keď sme importovali knižnicu pandas, vytvorte vzorový DataFrame s chýbajúcimi hodnotami, ktorý použijeme v tomto článku na demonštráciu rôznych techník počítania chýbajúcich hodnôt.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

V tomto príklade máme DataFrame s tromi stĺpcami: Názov, Vek a Mesto. Chýbajú niektoré hodnoty, ktoré nájdeme a spočítame v ďalšej časti.

Nájdenie a počítanie chýbajúcich hodnôt pomocou isnull() a sum()

Prvou metódou na počítanie chýbajúcich hodnôt v dátovom rámci pandas je použitie isnull() funkciu. Táto funkcia vracia DataFrame rovnakého tvaru ako originál, ale s hodnotami True alebo False, ktoré indikujú, či chýba zodpovedajúci záznam (tj obsahuje None alebo NaN) alebo nie.

missing_values = df.isnull()

Teraz máme DataFrame rovnakého tvaru, pričom hodnoty True označujú chýbajúce položky. Na spočítanie týchto chýbajúcich hodnôt môžeme jednoducho použiť suma() funkciu. Jeho použitím cez DataFrame môžeme získať počet chýbajúcich hodnôt pre každý stĺpec.

count_missing_values = df.isnull().sum()

Získame tak sériu pandy s počtom chýbajúcich hodnôt pre každý stĺpec v našom DataFrame.

Alternatívny prístup: Použitie isna() a sum()

Ďalším prístupom na počítanie chýbajúcich hodnôt v dátovom rámci pandas je použitie isna() funkciu. Je to alias pre isnull() a funguje rovnakým spôsobom.

count_missing_values = df.isna().sum()

To poskytne rovnaký výsledok ako predchádzajúci prístup, pričom sa spočíta počet chýbajúcich hodnôt pre každý stĺpec v našom DataFrame.

Počítanie chýbajúcich hodnôt v celom dátovom rámci

Ak chceme nájsť celkový počet chýbajúcich hodnôt v celom DataFrame, môžeme jednoducho reťaziť ďalšie suma() funkciu po prvej funkcii sum().

total_missing_values = df.isnull().sum().sum()

Toto vráti celkový počet chýbajúcich hodnôt v celom DataFrame.

Stručne povedané, spracovanie chýbajúcich hodnôt v pandách je kľúčovým krokom vo fáze čistenia a predbežného spracovania údajov. Pomocou funkcií isnull() alebo isna() v kombinácii s funkciou sum() môžeme efektívne spočítať počet chýbajúcich hodnôt v našom DataFrame, čo uľahčuje riešenie a správu problémov s chýbajúcimi údajmi v našej analýze.

Súvisiace príspevky:

Pridať komentár