தீர்க்கப்பட்டது: பாண்டாக்கள் ஒவ்வொரு நெடுவரிசைக்கும் தனிப்பட்ட மதிப்பு

Pandas என்பது தரவு கையாளுதல் மற்றும் பகுப்பாய்விற்கான சக்திவாய்ந்த மற்றும் பரவலாகப் பயன்படுத்தப்படும் பைதான் நூலகமாகும். தரவுத்தொகுப்புகளுடன் பணிபுரியும் போது ஒரு பொதுவான பணி ஒவ்வொரு நெடுவரிசையிலும் தனிப்பட்ட மதிப்புகளைக் கண்டறிய வேண்டும். இது உங்கள் தரவில் உள்ள மதிப்புகளின் பன்முகத்தன்மை மற்றும் விநியோகத்தைப் புரிந்துகொள்வதில் உதவிகரமாக இருக்கும், அத்துடன் சாத்தியமான புறம்போக்கு மற்றும் பிழைகளை அடையாளம் காணவும். இந்தக் கட்டுரையில், Pandas ஐப் பயன்படுத்தி இந்தப் பணியை எவ்வாறு நிறைவேற்றுவது என்பதை ஆராய்வோம் மற்றும் அதில் உள்ள குறியீட்டின் விரிவான, படிப்படியான விளக்கத்தை வழங்குவோம். தனிப்பட்ட மதிப்புகள் மற்றும் பிற தரவு பகுப்பாய்வு பணிகளுடன் பணிபுரியும் போது பயனுள்ளதாக இருக்கும் சில தொடர்புடைய நூலகங்கள் மற்றும் செயல்பாடுகளை நாங்கள் விவாதிப்போம்.

Pandas ஐப் பயன்படுத்தி ஒவ்வொரு நெடுவரிசையிலும் தனித்துவமான மதிப்புகளைக் கண்டறிவதில் உள்ள சிக்கலைத் தீர்க்க, முதலில் நூலகத்தை இறக்குமதி செய்து எங்கள் தரவுத்தொகுப்பில் படிக்க வேண்டும். எங்களுடைய DataFrame கிடைத்ததும், ஒவ்வொரு நெடுவரிசைக்கும் தனித்துவமான மதிப்புகளைக் கண்டறிந்து காண்பிக்க `nunique()` மற்றும் `unique()` செயல்பாடுகளைப் பயன்படுத்தலாம்.

import pandas as pd

# Read in the dataset
data = pd.read_csv('your_data_file.csv')

# Find and display the unique values for each column
for column in data.columns:
    unique_count = data[column].nunique()
    unique_values = data[column].unique()
    print(f"Column '{column}' has {unique_count} unique values:")
    print(unique_values)

மேலே உள்ள குறியீடு துணுக்கில், முதலில் பாண்டாஸ் லைப்ரரியை இறக்குமதி செய்து, `pd.read_csv()` செயல்பாட்டைப் பயன்படுத்தி எங்கள் தரவுத்தொகுப்பில் படிக்கிறோம். அடுத்து, ஒரு for loop ஐப் பயன்படுத்தி DataFrame இல் உள்ள ஒவ்வொரு நெடுவரிசையிலும் மீண்டும் மீண்டும் செய்கிறோம். லூப்பில், நடப்பு நெடுவரிசையில் உள்ள தனித்துவமான மதிப்புகளின் எண்ணிக்கையைக் கண்டறிய `nunique()` செயல்பாட்டையும், தனிப்பட்ட மதிப்புகளின் வரிசையை மீட்டெடுக்க `unique()` செயல்பாட்டையும் பயன்படுத்துகிறோம். இறுதியாக, வடிவமைக்கப்பட்ட சரங்களைப் பயன்படுத்தி முடிவுகளை அச்சிடுகிறோம்.

பாண்டாஸ் நுனிக்() மற்றும் தனித்துவமான() செயல்பாடுகள்

பாண்டாஸ் நுனிக்() கொடுக்கப்பட்ட தொடர் அல்லது DataFrame நெடுவரிசையில் உள்ள தனிப்பட்ட மதிப்புகளின் எண்ணிக்கையை வழங்கும் பயனுள்ள செயல்பாடாகும். தரவுத்தொகுப்பின் ஒட்டுமொத்த சிக்கலான தன்மையையும் பன்முகத்தன்மையையும் புரிந்துகொள்ள முயற்சிக்கும் போது இது உதவியாக இருக்கும். இது காணாமல் போன மதிப்புகளை ("NaN" போன்றவை) கணக்கில் எடுத்துக்கொண்டு, அவற்றை முன்னிருப்பாக விலக்குகிறது. எண்ணிக்கையில் விடுபட்ட மதிப்புகளைச் சேர்க்க விரும்பினால், `dropna` அளவுருவை `False` என அமைக்கலாம், அதுபோல: `nunique(dropna=False)`.

பாண்டாக்கள் தனித்துவமான() குறிப்பிட்ட தொடர் அல்லது DataFrame நெடுவரிசையில் தனித்துவமான மதிப்புகளின் வரிசையை வழங்கும் மற்றொரு மதிப்புமிக்க செயல்பாடு ஆகும். `nunique()` போலல்லாமல், இந்தச் செயல்பாடு உண்மையில் தனிப்பட்ட மதிப்புகளைத் தருகிறது.

ஒன்றாக, இந்த செயல்பாடுகள் உங்கள் தரவுத்தொகுப்பில் தனிப்பட்ட மதிப்புகளைக் கண்டறிந்து வேலை செய்வதற்கான சக்திவாய்ந்த மற்றும் திறமையான வழியை வழங்குகிறது.

தரவு பகுப்பாய்விற்கான தொடர்புடைய நூலகங்கள்

குறும்பு எண்ணியல் கம்ப்யூட்டிங்கிற்கான பிரபலமான பைதான் நூலகமாகும், இது பெரும்பாலும் பாண்டாக்களுடன் இணைந்து பயன்படுத்தப்படுகிறது. இது n-பரிமாண வரிசைகள் மற்றும் மெட்ரிக்குகளுடன் வேலை செய்வதற்கான பரந்த அளவிலான கணித செயல்பாடுகள் மற்றும் கருவிகளை வழங்குகிறது. பெரிய தரவுத்தொகுப்புகள் மற்றும் சிக்கலான கணக்கீடுகளைக் கையாளும் போது, ​​அதன் செயல்திறன் மேம்பாடுகள் மற்றும் உகந்த தரவு கட்டமைப்புகளுக்கு நம்பி பயனுள்ளதாக இருக்கும்.

ஸ்கிக்கிட்-கற்க பைத்தானில் இயந்திர கற்றலுக்கான சக்திவாய்ந்த நூலகம். இது தரவு முன் செயலாக்கம், மாதிரி தேர்வு மற்றும் மதிப்பீடு ஆகியவற்றிற்கான கருவிகளுடன், வகைப்பாடு, பின்னடைவு, கிளஸ்டரிங் மற்றும் பரிமாணத்தைக் குறைப்பதற்கான பல்வேறு வழிமுறைகளை வழங்குகிறது. முன்கணிப்பு மாதிரிகளை உருவாக்க அல்லது பிற இயந்திர கற்றல் பணிகளைச் செய்ய உங்கள் தரவுத்தொகுப்பின் தனித்துவமான மதிப்புகள் மற்றும் பிற அம்சங்களுடன் நீங்கள் பணிபுரிந்தால், Scikit-learn என்பது நீங்கள் மேலும் ஆராய விரும்பும் ஒரு நூலகமாகும்.

முடிவில், தரவுத்தொகுப்பின் ஒவ்வொரு நெடுவரிசையிலும் தனித்துவமான மதிப்புகளைக் கண்டறிவது பல தரவு பகுப்பாய்வு மற்றும் பணிப்பாய்வுகளை முன்னெடுப்பதில் ஒரு முக்கியமான படியாகும். இந்த பணிக்கு உதவ, திறமையான மற்றும் பயன்படுத்த எளிதான `nunique()` மற்றும் `unique()` செயல்பாடுகளை Pandas வழங்குகிறது, மேலும் அவற்றின் பயன்பாட்டைப் புரிந்துகொள்வது உங்கள் தரவு பகுப்பாய்வு திட்டங்களின் வேகத்தையும் செயல்திறனையும் பெரிதும் மேம்படுத்தும். கூடுதலாக, Numpy மற்றும் Scikit-learn போன்ற தொடர்புடைய நூலகங்களைப் பற்றிய உங்கள் அறிவை விரிவுபடுத்துவது, தரவுக் கையாளுதல் மற்றும் பகுப்பாய்வில் உங்கள் திறன்களை மேலும் மேம்படுத்தி, தொடர்ந்து வளர்ந்து வரும் தரவு அறிவியலின் துறையில் உங்களை வெற்றிபெற வைக்கும்.

தொடர்புடைய இடுகைகள்:

ஒரு கருத்துரையை