Ratkaistu: Pandan puuttuvien arvojen lukumäärän saaminen

Pandas on laajalti käytetty avoimen lähdekoodin tietojenkäsittelykirjasto Pythonille. Se tarjoaa tietorakenteita ja toimintoja, joita tarvitaan suurten tietojoukkojen tehokkaaseen käsittelyyn ja analysointiin. Yksi yleinen ongelma, jonka datatieteilijät ja analyytikot kohtaavat pandoja käyttäessään, on puuttuvien arvojen käsittely tietojoukosta. Tässä artikkelissa tutkimme, kuinka laskea puuttuvien arvojen määrä pandas DataFrame -kehyksestä eri tekniikoilla, vaiheittaisilla koodin selityksillä ja syvemmälle joihinkin tämän ongelman ratkaisemiseen liittyviin kirjastoihin ja toimintoihin.

Puuttuvien arvojen laskeminen pandoissa

Aluksi meidän on ensin tuotava pandakirjasto. Jos et ole vielä asentanut sitä, suorita komento "pip install pandas" terminaalissasi tai komentokehotteessa.

import pandas as pd

Kun olemme tuoneet pandakirjaston, luodaan näytetietokehys puuttuvilla arvoilla, joita käytämme tässä artikkelissa erilaisten puuttuvien arvojen laskemistekniikoiden esittelyyn.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Tässä esimerkissä meillä on DataFrame, jossa on kolme saraketta: Nimi, Ikä ja Kaupunki. Joitain puuttuvia arvoja löydämme ja laskemme seuraavassa osiossa.

Puuttuvien arvojen etsiminen ja laskeminen komennolla isnull() ja sum()

Ensimmäinen menetelmä puuttuvien arvojen laskemiseen pandas DataFrame -kehyksestä on käyttää isnull() toiminto. Tämä funktio palauttaa DataFrame-kehyksen, joka on samanmuotoinen kuin alkuperäinen, mutta True- tai False-arvoilla, jotka osoittavat, puuttuuko vastaava merkintä (eli sisältää None- tai NaN) vai ei.

missing_values = df.isnull()

Nyt meillä on samanmuotoinen DataFrame, jossa True-arvot osoittavat puuttuvia merkintöjä. Näiden puuttuvien arvojen laskemiseksi voimme yksinkertaisesti käyttää summa() toiminto. Käyttämällä sitä DataFramen yli, voimme saada kunkin sarakkeen puuttuvien arvojen määrän.

count_missing_values = df.isnull().sum()

Tämä antaa meille pandas-sarjan, jossa on puuttuvien arvojen määrä jokaisesta DataFrame-sarakkeesta.

Vaihtoehtoinen lähestymistapa: Isna() ja sum()

Toinen tapa laskea puuttuvat arvot pandas DataFrame -kehyksessä on käyttää isna () toiminto. Se on isnull()-alias ja toimii samalla tavalla.

count_missing_values = df.isna().sum()

Tämä antaa saman tuloksen kuin edellinen lähestymistapa, joka laskee puuttuvien arvojen määrän jokaisesta DataFrame-sarakkeesta.

Puuttuvien arvojen laskeminen koko tietokehyksestä

Jos haluamme löytää puuttuvien arvojen kokonaismäärän koko DataFramesta, voimme yksinkertaisesti ketjuttaa toisen summa() funktio ensimmäisen summa()-funktion jälkeen.

total_missing_values = df.isnull().sum().sum()

Tämä palauttaa puuttuvien arvojen kokonaismäärän koko DataFramesta.

Yhteenvetona voidaan todeta, että puuttuvien arvojen käsittely pandoissa on ratkaiseva vaihe tietojen puhdistus- ja esikäsittelyvaiheessa. Käyttämällä isnull()- tai isna()-funktioita yhdessä sum()-funktion kanssa voimme tehokkaasti laskea puuttuvien arvojen määrän DataFrame-kehyksestämme, mikä helpottaa puuttuvien tietoongelmien ratkaisemista ja hallintaa analyysissämme.

Related viestiä:

Jätä kommentti