தீர்க்கப்பட்டது: பாண்டாக்களில் உள்ள அனைத்து நெடுவரிசைகளையும் வடிகட்டவும்

தரவு பகுப்பாய்வு உலகில், பெரிய தரவுத்தொகுப்புகளைக் கையாள்வது ஒரு கடினமான பணியாகும். இந்தச் செயல்பாட்டின் இன்றியமையாத பாகங்களில் ஒன்று, தொடர்புடைய தகவலைப் பெற தரவை வடிகட்டுவது. பைத்தானுக்கு வரும்போது, ​​சக்திவாய்ந்த நூலகம் பாண்டாக்கள் எங்கள் உதவிக்கு வருகிறது. இந்த கட்டுரையில், நாம் விவாதிப்போம் பாண்டாஸ் டேட்டாஃப்ரேமில் அனைத்து நெடுவரிசைகளையும் வடிகட்டுவது எப்படி. குறியீட்டின் படிப்படியான விளக்கத்திற்குச் சென்று, இதே போன்ற சிக்கல்களுக்குப் பயன்படுத்தக்கூடிய நூலகங்கள் மற்றும் செயல்பாடுகளைப் பற்றிய ஆழமான புரிதலை வழங்குவோம்.

பாண்டாக்களை அறிமுகப்படுத்துகிறோம்

பைதான் நிரலாக்க மொழிக்கு பயன்படுத்த எளிதான தரவு கட்டமைப்புகள் மற்றும் தரவு பகுப்பாய்வு கருவிகளை வழங்கும் திறந்த மூல நூலகமாகும். இது தரவு அறிவியல் சுற்றுச்சூழலில் குறிப்பிடத்தக்க பங்கை வகிக்கிறது மற்றும் பைத்தானுடன் பணிபுரியும் எந்தவொரு தரவு விஞ்ஞானி அல்லது ஆய்வாளருக்கும் அவசியமான கருவியாக மாறியுள்ளது. அதன் அம்சங்களில், பாண்டாக்கள் இரண்டு முதன்மை தரவு கட்டமைப்புகளை வழங்குகின்றன: டேட்டாஃப்ரேம் மற்றும் தொடர். டேட்டாஃப்ரேம் என்பது இரு பரிமாண அட்டவணை ஆகும், இது அச்சுகள் (வரிசைகள் மற்றும் நெடுவரிசைகள்) என்று பெயரிடப்பட்டது, அதே சமயம் ஒரு தொடர் என்பது ஒரு பரிமாண லேபிளிடப்பட்ட வரிசையாகும்.

இந்தக் கட்டுரையில், பாண்டாஸ் டேட்டாஃப்ரேமின் எந்த நெடுவரிசையிலும் இருக்கும் குறிப்பிட்ட மதிப்புகளை வடிகட்டுவதில் கவனம் செலுத்துவோம். இதைச் செய்ய, நாங்கள் பாண்டாக்களைப் பயன்படுத்துவோம் .உள்ளது() பூலியன் முகமூடியுடன் இணைந்து செயல்படுகிறது.

DataFrame வடிகட்டுதல்

பாண்டாக்களில் டேட்டாஃப்ரேமை வடிகட்ட, இந்தப் படிகளைப் பின்பற்றவும்:

1. பாண்டாஸ் நூலகத்தை இறக்குமதி செய்
2. DataFrame ஐ உருவாக்கவும் அல்லது கோப்பிலிருந்து ஏற்றவும்
3. நீங்கள் வடிகட்ட விரும்பும் மதிப்புகளை வரையறுக்கவும்
4. `.isin()` செயல்பாடு மற்றும் பூலியன் முகமூடியைப் பயன்படுத்தி வடிகட்டியைப் பயன்படுத்தவும்
5. வடிகட்டப்பட்ட DataFrame ஐக் காண்பி

இது எவ்வாறு செயல்படுகிறது என்பதைப் புரிந்துகொள்ள குறியீட்டிற்குள் நுழைவோம்.

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

இந்த எடுத்துக்காட்டில், நாம் முதலில் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்து மூன்று நெடுவரிசைகளுடன் டேட்டாஃப்ரேமை உருவாக்குகிறோம். நாம் வடிகட்ட விரும்பும் மதிப்புகளை (1, 3, 5, மற்றும் 'A') வரையறுத்து, பூலியன் மாஸ்கிங்குடன் இணைந்து `.isin()` செயல்பாட்டைப் பயன்படுத்தி வடிப்பானைப் பயன்படுத்துகிறோம். `any(axis=1)` செயல்பாடு ஒரு வரிசையில் உள்ள ஏதேனும் மதிப்பு வடிகட்டுதல் அளவுகோலைச் சந்திக்கிறதா என்பதைச் சரிபார்க்கும். இறுதியாக, வடிகட்டப்பட்ட DataFrame ஐ அச்சிடுகிறோம்.

.isin() செயல்பாடு மற்றும் பூலியன் மறைத்தல்

தி .உள்ளது() ஃபங்ஷன் இன் பாண்டாஸ் என்பது ஒரு பட்டியல் அல்லது மதிப்புகளின் அடிப்படையில் தரவை வடிகட்டுவதற்கான பல்துறை கருவியாகும். வழங்கப்பட்ட பட்டியல் அல்லது தொகுப்பில் எந்தெந்த உறுப்புகள் உள்ளன என்பதைக் குறிக்கும், அசல் வடிவத்தின் அதே வடிவத்தின் பூலியன் டேட்டாஃப்ரேமை இது வழங்குகிறது. எங்கள் விஷயத்தில், நாம் வடிகட்ட விரும்பும் மதிப்புகளின் பட்டியலை அனுப்புகிறோம்.

பூலியன் மாஸ்கிங் என்பது தரவுகளை உறுப்பு வாரியாக வடிகட்டுவதற்கு பாண்டாக்களில் பயன்படுத்தப்படும் ஒரு நுட்பமாகும். அதன் கூறுகளை வடிகட்ட ஒரு தரவு கட்டமைப்பிற்கு பூலியன் முகமூடியை (உண்மை மற்றும் தவறான மதிப்புகளின் வரிசை) பயன்படுத்துவதைக் கொண்டுள்ளது. எங்கள் பிரச்சனையின் சூழலில், விரும்பிய மதிப்புகளைக் கொண்ட வரிசைகளை மீட்டெடுக்க .isin() செயல்பாட்டுடன் பூலியன் மாஸ்கிங்கைப் பயன்படுத்துகிறோம்.

பாண்டாஸ் லைப்ரரி, டேட்டாஃப்ரேம் கட்டமைப்புகள் மற்றும் .isin() செயல்பாடு பற்றிய தெளிவான புரிதலுடன், எந்தவொரு பாண்டாஸ் டேட்டாஃப்ரேமையும் திறம்பட வடிகட்ட முடியும். இந்த நுட்பங்கள் பெரிய தரவுத்தொகுப்புகளை ஆராய்வதற்கும், மதிப்புமிக்க நுண்ணறிவுகளை எளிதாகப் பிரித்தெடுப்பதற்கும் அனுமதிக்கின்றன, பைத்தானில் தரவுப் பகுப்பாய்விற்காக பாண்டாக்களை ஒரு நூலகமாக மாற்றுகிறது.

தொடர்புடைய இடுகைகள்:

ஒரு கருத்துரையை