தீர்க்கப்பட்டது: பாண்டாக்களில் விடுபட்ட மதிப்புகளின் எண்ணிக்கையைப் பெறுதல்

Pandas என்பது Python க்காக பரவலாகப் பயன்படுத்தப்படும் திறந்த மூல தரவு கையாளுதல் நூலகம் ஆகும். பெரிய தரவுத்தொகுப்புகளை திறம்பட கையாளவும் பகுப்பாய்வு செய்யவும் தேவையான தரவு கட்டமைப்புகள் மற்றும் செயல்பாடுகளை இது வழங்குகிறது. பாண்டாக்களைப் பயன்படுத்தும் போது தரவு விஞ்ஞானிகளும் ஆய்வாளர்களும் சந்திக்கும் ஒரு பொதுவான சிக்கல் தரவுத்தொகுப்பில் காணாமல் போன மதிப்புகளைக் கையாள்வது. இந்தக் கட்டுரையில், பல்வேறு நுட்பங்களைப் பயன்படுத்தி ஒரு பாண்டாஸ் டேட்டாஃப்ரேமில் விடுபட்ட மதிப்புகளின் எண்ணிக்கையை எவ்வாறு கணக்கிடுவது, குறியீட்டின் படிப்படியான விளக்கங்கள் மற்றும் இந்த சிக்கலைத் தீர்ப்பதில் ஈடுபட்டுள்ள சில நூலகங்கள் மற்றும் செயல்பாடுகளை ஆழமாக ஆராய்வோம்.

பாண்டாஸில் விடுபட்ட மதிப்புகளை எண்ணுதல்

தொடங்குவதற்கு, நாம் முதலில் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்ய வேண்டும். நீங்கள் இன்னும் நிறுவவில்லை என்றால், உங்கள் முனையம் அல்லது கட்டளை வரியில் `pip install pandas` கட்டளையை இயக்கவும்.

import pandas as pd

நாம் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்தவுடன், விடுபட்ட மதிப்புகளைக் கொண்ட மாதிரி டேட்டாஃப்ரேமை உருவாக்குவோம், இந்தக் கட்டுரை முழுவதும் காணாமல் போன மதிப்புகளைக் கணக்கிடுவதற்கான பல்வேறு நுட்பங்களை விளக்குவதற்குப் பயன்படுத்துவோம்.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

இந்த எடுத்துக்காட்டில், பெயர், வயது மற்றும் நகரம் ஆகிய மூன்று நெடுவரிசைகளைக் கொண்ட டேட்டாஃப்ரேம் உள்ளது. சில விடுபட்ட மதிப்புகள் உள்ளன, அவற்றைக் கண்டுபிடித்து அடுத்த பகுதியில் எண்ணுவோம்.

isnull() மற்றும் sum()ஐப் பயன்படுத்தி விடுபட்ட மதிப்புகளைக் கண்டறிந்து எண்ணுதல்

பாண்டாஸ் டேட்டாஃப்ரேமில் விடுபட்ட மதிப்புகளை எண்ணுவதற்கான முதல் முறை isnull() செயல்பாடு. இந்தச் செயல்பாடு அசல் வடிவத்தின் அதே வடிவத்தின் DataFrame ஐ வழங்குகிறது, ஆனால் தொடர்புடைய உள்ளீடு விடுபட்டுள்ளதா (அதாவது, எதுவுமில்லை அல்லது NaN இல்லை) இல்லையா என்பதைக் குறிக்கும் True அல்லது False மதிப்புகளுடன்.

missing_values = df.isnull()

இப்போது எங்களிடம் அதே வடிவத்தின் DataFrame உள்ளது, உண்மையான மதிப்புகள் விடுபட்ட உள்ளீடுகளைக் குறிக்கும். இந்த விடுபட்ட மதிப்புகளைக் கணக்கிட, நாம் இதைப் பயன்படுத்தலாம் தொகை () செயல்பாடு. DataFrame இல் அதைப் பயன்படுத்துவதன் மூலம், ஒவ்வொரு நெடுவரிசைக்கும் விடுபட்ட மதிப்புகளின் எண்ணிக்கையைப் பெறலாம்.

count_missing_values = df.isnull().sum()

இது எங்களின் DataFrameல் உள்ள ஒவ்வொரு நெடுவரிசைக்கும் விடுபட்ட மதிப்புகளின் எண்ணிக்கையுடன் பாண்டாஸ் தொடரை நமக்கு வழங்கும்.

மாற்று அணுகுமுறை: isna() மற்றும் sum() ஆகியவற்றைப் பயன்படுத்துதல்

ஒரு pandas DataFrame இல் காணாமல் போன மதிப்புகளை எண்ணுவதற்கான மற்றொரு அணுகுமுறை isna() செயல்பாடு. இது isnull()க்கான மாற்றுப்பெயர் மற்றும் அதே வழியில் செயல்படுகிறது.

count_missing_values = df.isna().sum()

இது முந்தைய அணுகுமுறையின் அதே முடிவைக் கொடுக்கும், எங்கள் DataFrame இல் உள்ள ஒவ்வொரு நெடுவரிசைக்கும் விடுபட்ட மதிப்புகளின் எண்ணிக்கையைக் கணக்கிடும்.

முழு டேட்டாஃப்ரேமிலும் விடுபட்ட மதிப்புகளை எண்ணுதல்

முழு DataFrame இல் காணாமல் போன மதிப்புகளின் மொத்த எண்ணிக்கையை நாம் கண்டுபிடிக்க விரும்பினால், நாம் மற்றொன்றை இணைக்கலாம். தொகை () முதல் தொகை() செயல்பாட்டிற்கு பிறகு செயல்பாடு.

total_missing_values = df.isnull().sum().sum()

இது முழு DataFrame இல் காணாமல் போன மதிப்புகளின் மொத்த எண்ணிக்கையை வழங்கும்.

சுருக்கமாக, பாண்டாக்களில் விடுபட்ட மதிப்புகளைக் கையாள்வது தரவு சுத்தம் மற்றும் முன் செயலாக்க கட்டத்தில் ஒரு முக்கியமான படியாகும். isnull() அல்லது isna() செயல்பாடுகளைப் பயன்படுத்துவதன் மூலம், sum() செயல்பாட்டுடன் இணைந்து, நமது DataFrame இல் உள்ள விடுபட்ட மதிப்புகளின் எண்ணிக்கையை நாம் திறமையாக எண்ணலாம், இது எங்கள் பகுப்பாய்வில் விடுபட்ட தரவுச் சிக்கல்களைத் தீர்ப்பதையும் நிர்வகிப்பதையும் எளிதாக்குகிறது.

தொடர்புடைய இடுகைகள்:

ஒரு கருத்துரையை