Pandas என்பது Python க்காக பரவலாகப் பயன்படுத்தப்படும் திறந்த மூல தரவு கையாளுதல் நூலகம் ஆகும். பெரிய தரவுத்தொகுப்புகளை திறம்பட கையாளவும் பகுப்பாய்வு செய்யவும் தேவையான தரவு கட்டமைப்புகள் மற்றும் செயல்பாடுகளை இது வழங்குகிறது. பாண்டாக்களைப் பயன்படுத்தும் போது தரவு விஞ்ஞானிகளும் ஆய்வாளர்களும் சந்திக்கும் ஒரு பொதுவான சிக்கல் தரவுத்தொகுப்பில் காணாமல் போன மதிப்புகளைக் கையாள்வது. இந்தக் கட்டுரையில், பல்வேறு நுட்பங்களைப் பயன்படுத்தி ஒரு பாண்டாஸ் டேட்டாஃப்ரேமில் விடுபட்ட மதிப்புகளின் எண்ணிக்கையை எவ்வாறு கணக்கிடுவது, குறியீட்டின் படிப்படியான விளக்கங்கள் மற்றும் இந்த சிக்கலைத் தீர்ப்பதில் ஈடுபட்டுள்ள சில நூலகங்கள் மற்றும் செயல்பாடுகளை ஆழமாக ஆராய்வோம்.
பாண்டாஸில் விடுபட்ட மதிப்புகளை எண்ணுதல்
தொடங்குவதற்கு, நாம் முதலில் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்ய வேண்டும். நீங்கள் இன்னும் நிறுவவில்லை என்றால், உங்கள் முனையம் அல்லது கட்டளை வரியில் `pip install pandas` கட்டளையை இயக்கவும்.
import pandas as pd
நாம் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்தவுடன், விடுபட்ட மதிப்புகளைக் கொண்ட மாதிரி டேட்டாஃப்ரேமை உருவாக்குவோம், இந்தக் கட்டுரை முழுவதும் காணாமல் போன மதிப்புகளைக் கணக்கிடுவதற்கான பல்வேறு நுட்பங்களை விளக்குவதற்குப் பயன்படுத்துவோம்.
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
இந்த எடுத்துக்காட்டில், பெயர், வயது மற்றும் நகரம் ஆகிய மூன்று நெடுவரிசைகளைக் கொண்ட டேட்டாஃப்ரேம் உள்ளது. சில விடுபட்ட மதிப்புகள் உள்ளன, அவற்றைக் கண்டுபிடித்து அடுத்த பகுதியில் எண்ணுவோம்.
isnull() மற்றும் sum()ஐப் பயன்படுத்தி விடுபட்ட மதிப்புகளைக் கண்டறிந்து எண்ணுதல்
பாண்டாஸ் டேட்டாஃப்ரேமில் விடுபட்ட மதிப்புகளை எண்ணுவதற்கான முதல் முறை isnull() செயல்பாடு. இந்தச் செயல்பாடு அசல் வடிவத்தின் அதே வடிவத்தின் DataFrame ஐ வழங்குகிறது, ஆனால் தொடர்புடைய உள்ளீடு விடுபட்டுள்ளதா (அதாவது, எதுவுமில்லை அல்லது NaN இல்லை) இல்லையா என்பதைக் குறிக்கும் True அல்லது False மதிப்புகளுடன்.
missing_values = df.isnull()
இப்போது எங்களிடம் அதே வடிவத்தின் DataFrame உள்ளது, உண்மையான மதிப்புகள் விடுபட்ட உள்ளீடுகளைக் குறிக்கும். இந்த விடுபட்ட மதிப்புகளைக் கணக்கிட, நாம் இதைப் பயன்படுத்தலாம் தொகை () செயல்பாடு. DataFrame இல் அதைப் பயன்படுத்துவதன் மூலம், ஒவ்வொரு நெடுவரிசைக்கும் விடுபட்ட மதிப்புகளின் எண்ணிக்கையைப் பெறலாம்.
count_missing_values = df.isnull().sum()
இது எங்களின் DataFrameல் உள்ள ஒவ்வொரு நெடுவரிசைக்கும் விடுபட்ட மதிப்புகளின் எண்ணிக்கையுடன் பாண்டாஸ் தொடரை நமக்கு வழங்கும்.
மாற்று அணுகுமுறை: isna() மற்றும் sum() ஆகியவற்றைப் பயன்படுத்துதல்
ஒரு pandas DataFrame இல் காணாமல் போன மதிப்புகளை எண்ணுவதற்கான மற்றொரு அணுகுமுறை isna() செயல்பாடு. இது isnull()க்கான மாற்றுப்பெயர் மற்றும் அதே வழியில் செயல்படுகிறது.
count_missing_values = df.isna().sum()
இது முந்தைய அணுகுமுறையின் அதே முடிவைக் கொடுக்கும், எங்கள் DataFrame இல் உள்ள ஒவ்வொரு நெடுவரிசைக்கும் விடுபட்ட மதிப்புகளின் எண்ணிக்கையைக் கணக்கிடும்.
முழு டேட்டாஃப்ரேமிலும் விடுபட்ட மதிப்புகளை எண்ணுதல்
முழு DataFrame இல் காணாமல் போன மதிப்புகளின் மொத்த எண்ணிக்கையை நாம் கண்டுபிடிக்க விரும்பினால், நாம் மற்றொன்றை இணைக்கலாம். தொகை () முதல் தொகை() செயல்பாட்டிற்கு பிறகு செயல்பாடு.
total_missing_values = df.isnull().sum().sum()
இது முழு DataFrame இல் காணாமல் போன மதிப்புகளின் மொத்த எண்ணிக்கையை வழங்கும்.
சுருக்கமாக, பாண்டாக்களில் விடுபட்ட மதிப்புகளைக் கையாள்வது தரவு சுத்தம் மற்றும் முன் செயலாக்க கட்டத்தில் ஒரு முக்கியமான படியாகும். isnull() அல்லது isna() செயல்பாடுகளைப் பயன்படுத்துவதன் மூலம், sum() செயல்பாட்டுடன் இணைந்து, நமது DataFrame இல் உள்ள விடுபட்ட மதிப்புகளின் எண்ணிக்கையை நாம் திறமையாக எண்ணலாம், இது எங்கள் பகுப்பாய்வில் விடுபட்ட தரவுச் சிக்கல்களைத் தீர்ப்பதையும் நிர்வகிப்பதையும் எளிதாக்குகிறது.