Nalutas: pagkuha ng bilang ng mga nawawalang halaga sa mga panda

Ang Pandas ay isang malawak na ginagamit na open-source data manipulation library para sa Python. Nagbibigay ito ng mga istruktura ng data at mga function na kinakailangan upang epektibong manipulahin at pag-aralan ang malalaking dataset. Isang karaniwang problemang nararanasan ng mga siyentipiko at analyst ng data habang gumagamit ng mga panda ay ang paghawak ng mga nawawalang value sa dataset. Sa artikulong ito, tutuklasin natin kung paano mabibilang ang bilang ng mga nawawalang value sa isang panda DataFrame gamit ang iba't ibang mga diskarte, sunud-sunod na mga paliwanag ng code, at mas malalim na suriin ang ilan sa mga library at function na kasangkot sa paglutas ng problemang ito.

Nagbibilang ng mga Nawawalang Halaga sa Panda

Upang magsimula, kailangan muna nating i-import ang pandas library. Kung hindi mo pa ito na-install, patakbuhin lang ang command na `pip install pandas` sa iyong terminal o command prompt.

import pandas as pd

Kapag na-import na namin ang library ng pandas, gumawa tayo ng sample na DataFrame na may mga nawawalang value, na gagamitin namin sa buong artikulong ito para magpakita ng iba't ibang diskarte sa pagbibilang ng mga nawawalang value.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Sa halimbawang ito, mayroon kaming DataFrame na may tatlong column: Pangalan, Edad, at Lungsod. Mayroong ilang mga nawawalang halaga, na makikita natin at mabibilang sa susunod na seksyon.

Paghahanap at Pagbibilang ng mga Nawawalang Halaga gamit ang isnull() at sum()

Ang unang paraan upang mabilang ang mga nawawalang halaga sa isang pandas DataFrame ay sa pamamagitan ng paggamit ng ay walang bisa() function. Ang function na ito ay nagbabalik ng DataFrame na may parehong hugis tulad ng orihinal, ngunit may mga True o False na mga halaga na nagsasaad kung ang katumbas na entry ay nawawala (ibig sabihin, naglalaman ng Wala o NaN) o hindi.

missing_values = df.isnull()

Ngayon ay mayroon na kaming DataFrame ng parehong hugis, na may mga True value na nagsasaad ng mga nawawalang entry. Upang mabilang ang mga nawawalang halagang ito, maaari lang nating gamitin ang kabuuan() function. Sa pamamagitan ng paggamit nito sa DataFrame, makukuha natin ang bilang ng mga nawawalang halaga para sa bawat column.

count_missing_values = df.isnull().sum()

Bibigyan kami nito ng Serye ng pandas na may bilang ng mga nawawalang halaga para sa bawat column sa aming DataFrame.

Alternatibong Diskarte: Paggamit ng isna() at sum()

Ang isa pang diskarte upang mabilang ang mga nawawalang halaga sa isang pandas DataFrame ay sa pamamagitan ng paggamit ng isna() function. Isa itong alias para sa isnull() at gumagana sa parehong paraan.

count_missing_values = df.isna().sum()

Magbibigay ito ng parehong resulta gaya ng nakaraang diskarte, binibilang ang bilang ng mga nawawalang halaga para sa bawat column sa aming DataFrame.

Nagbibilang ng Mga Nawawalang Halaga sa Buong DataFrame

Kung gusto nating mahanap ang kabuuang bilang ng mga nawawalang value sa buong DataFrame, maaari na lang nating i-chain ang isa pa kabuuan() function pagkatapos ng unang sum() function.

total_missing_values = df.isnull().sum().sum()

Ibabalik nito ang kabuuang bilang ng mga nawawalang halaga sa buong DataFrame.

Sa kabuuan, ang paghawak ng mga nawawalang halaga sa mga panda ay isang mahalagang hakbang sa yugto ng paglilinis at paunang pagproseso ng data. Sa pamamagitan ng paggamit ng isnull() o isna() function, kasama ng sum() function, mabibilang namin nang mahusay ang bilang ng mga nawawalang value sa aming DataFrame, na ginagawang mas madaling tugunan at pamahalaan ang mga nawawalang isyu sa data sa aming pagsusuri.

Kaugnay na mga post:

Mag-iwan ng komento