Zgjidhet: marrja e numrit të vlerave që mungojnë në panda

Pandas është një bibliotekë e përdorur gjerësisht për manipulimin e të dhënave me burim të hapur për Python. Ai siguron struktura dhe funksione të dhënash të nevojshme për të manipuluar dhe analizuar në mënyrë efektive grupet e mëdha të të dhënave. Një problem i zakonshëm që shkencëtarët dhe analistët hasin gjatë përdorimit të pandave është trajtimi i vlerave që mungojnë në grupin e të dhënave. Në këtë artikull, ne do të shqyrtojmë se si të numërojmë numrin e vlerave që mungojnë në një DataFrame panda duke përdorur teknika të ndryshme, shpjegime hap pas hapi të kodit dhe do të gërmojmë më thellë në disa nga bibliotekat dhe funksionet e përfshira në zgjidhjen e këtij problemi.

Numërimi i vlerave që mungojnë te pandat

Për të filluar, së pari duhet të importojmë bibliotekën e pandave. Nëse nuk e keni instaluar ende, thjesht ekzekutoni komandën 'pip install pandas' në terminalin tuaj ose në vijën e komandës.

import pandas as pd

Pasi të kemi importuar bibliotekën e pandave, le të krijojmë një mostër DataFrame me vlera që mungojnë, të cilën do ta përdorim gjatë gjithë këtij artikulli për të demonstruar teknika të ndryshme të numërimit të vlerave që mungojnë.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Në këtë shembull, ne kemi një DataFrame me tre kolona: Emri, Mosha dhe Qyteti. Ka disa vlera që mungojnë, të cilat do t'i gjejmë dhe numërojmë në pjesën tjetër.

Gjetja dhe numërimi i vlerave që mungojnë duke përdorur isnull() dhe sum()

Metoda e parë për të numëruar vlerat që mungojnë në një DataFrame panda është duke përdorur isnull () funksionin. Ky funksion kthen një DataFrame të së njëjtës formë si origjinali, por me vlerat True ose False që tregojnë nëse hyrja përkatëse mungon (dmth, përmban Asnjë ose NaN) apo jo.

missing_values = df.isnull()

Tani kemi një DataFrame të së njëjtës formë, me vlerat True që tregojnë hyrjet që mungojnë. Për të numëruar këto vlera që mungojnë, ne thjesht mund të përdorim shuma () funksionin. Duke e përdorur atë mbi DataFrame, ne mund të marrim numrin e vlerave që mungojnë për secilën kolonë.

count_missing_values = df.isnull().sum()

Kjo do të na japë një seri panda me numrin e vlerave që mungojnë për secilën kolonë në DataFrame.

Qasje alternative: Duke përdorur isna () dhe sum ()

Një tjetër qasje për të numëruar vlerat që mungojnë në një DataFrame panda është duke përdorur isna () funksionin. Është një pseudonim për isnull() dhe funksionon në të njëjtën mënyrë.

count_missing_values = df.isna().sum()

Kjo do të japë të njëjtin rezultat si qasja e mëparshme, duke numëruar numrin e vlerave që mungojnë për secilën kolonë në DataFrame tonë.

Numërimi i vlerave që mungojnë në të gjithë kornizën e të dhënave

Nëse duam të gjejmë numrin total të vlerave që mungojnë në të gjithë DataFrame, thjesht mund të lidhim një tjetër shuma () funksion pas funksionit të parë sum().

total_missing_values = df.isnull().sum().sum()

Kjo do të kthejë numrin total të vlerave që mungojnë në të gjithë DataFrame.

Si përmbledhje, trajtimi i vlerave që mungojnë në panda është një hap vendimtar në fazën e pastrimit të të dhënave dhe para-përpunimit. Duke përdorur funksionet isnull() ose isna(), në kombinim me funksionin sum(), ne mund të numërojmë në mënyrë efikase numrin e vlerave që mungojnë në DataFrame, duke e bërë më të lehtë adresimin dhe menaxhimin e çështjeve të të dhënave që mungojnë në analizën tonë.

Mesazhe të ngjashme:

Lini një koment