Atrisināts: trūkstošo vērtību skaita iegūšana pandās

Pandas ir plaši izmantota Python atvērtā pirmkoda datu manipulācijas bibliotēka. Tas nodrošina datu struktūras un funkcijas, kas nepieciešamas, lai efektīvi manipulētu un analizētu lielas datu kopas. Viena izplatīta problēma, ar ko saskaras datu zinātnieki un analītiķi, lietojot pandas, ir datu kopā trūkstošo vērtību apstrāde. Šajā rakstā mēs izpētīsim, kā saskaitīt trūkstošo vērtību skaitu pandas DataFrame, izmantojot dažādas metodes, soli pa solim koda skaidrojumus un iedziļināsimies dažās bibliotēkās un funkcijās, kas iesaistītas šīs problēmas risināšanā.

Trūkstošo vērtību skaitīšana pandās

Lai sāktu, mums vispirms ir jāimportē pandu bibliotēka. Ja vēl neesat to instalējis, terminālī vai komandu uzvednē vienkārši palaidiet komandu "pip install pandas".

import pandas as pd

Kad esam importējuši pandas bibliotēku, izveidosim DataFrame paraugu ar trūkstošām vērtībām, ko izmantosim šajā rakstā, lai demonstrētu dažādas trūkstošo vērtību skaitīšanas metodes.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Šajā piemērā mums ir DataFrame ar trim kolonnām: vārds, vecums un pilsēta. Ir dažas trūkstošās vērtības, kuras mēs atradīsim un saskaitīsim nākamajā sadaļā.

Trūkstošo vērtību atrašana un skaitīšana, izmantojot isnull() un sum()

Pirmā metode trūkstošo vērtību skaitīšanai pandas DataFrame ir, izmantojot isnull() funkciju. Šī funkcija atgriež tādas pašas formas DataFrame kā oriģinālam, bet ar True vai False vērtībām, kas norāda, vai atbilstošā ieraksta trūkst (ti, satur None vai NaN) vai nē.

missing_values = df.isnull()

Tagad mums ir tādas pašas formas DataFrame ar True vērtībām, kas norāda trūkstošos ierakstus. Lai saskaitītu šīs trūkstošās vērtības, mēs varam vienkārši izmantot summa () funkciju. Izmantojot to DataFrame, mēs varam iegūt trūkstošo vērtību skaitu katrai kolonnai.

count_missing_values = df.isnull().sum()

Tādējādi mēs iegūsim pandas sēriju ar trūkstošo vērtību skaitu katrai mūsu DataFrame kolonnai.

Alternatīva pieeja: izmantojot isna () un summa ()

Vēl viena pieeja trūkstošo vērtību skaitīšanai pandas DataFrame ir, izmantojot isna () funkciju. Tas ir aizstājvārds isnull() un darbojas tāpat.

count_missing_values = df.isna().sum()

Tas dos tādu pašu rezultātu kā iepriekšējā pieeja, saskaitot trūkstošo vērtību skaitu katrai mūsu DataFrame kolonnai.

Trūkstošo vērtību skaitīšana visā DataFrame

Ja mēs vēlamies atrast trūkstošo vērtību kopējo skaitu visā DataFrame, mēs varam vienkārši ķēdīt citu summa () funkcija aiz pirmās summas () funkcijas.

total_missing_values = df.isnull().sum().sum()

Tādējādi tiks atgriezts kopējais trūkstošo vērtību skaits visā DataFrame.

Rezumējot, trūkstošo vērtību apstrāde pandās ir būtisks solis datu tīrīšanas un pirmapstrādes fāzē. Izmantojot funkcijas isnull() vai isna() kopā ar sum() funkciju, mēs varam efektīvi saskaitīt mūsu DataFrame trūkstošo vērtību skaitu, tādējādi atvieglojot analīzē trūkstošo datu problēmu risināšanu un pārvaldību.

Related posts:

Leave a Comment