தீர்க்கப்பட்டது: பாண்டாக்கள் தனித்துவமானவை அல்ல

பாண்டாஸ் என்பது தரவு கையாளுதல் மற்றும் பகுப்பாய்வு துறையில் பரவலாகப் பயன்படுத்தப்படும் பைதான் நூலகமாகும். கட்டமைக்கப்பட்ட தரவுகளுடன் தடையின்றி வேலை செய்வதற்குத் தேவையான தரவு கட்டமைப்புகள் மற்றும் செயல்பாடுகளை இது வழங்குகிறது. இது வழங்கும் பல அம்சங்களில் ஒன்று, நடைமுறை பயன்பாடுகளில் பொதுவான தேவையாக இருக்கும் தனித்துவமான விசைகளுடன் டேபிள்களை இணைக்கும் திறன் ஆகும். இந்தக் கட்டுரையில், இந்தச் சிக்கலுக்கான தீர்வைக் காண்போம், தனித்தன்மையற்ற விசைகளுடன் பாண்டாஸ் டேட்டாஃப்ரேம் பொருள்களை இணைக்கப் பயன்படுத்தப்படும் குறியீட்டின் படிப்படியான விளக்கத்தை ஆராய்வோம், மேலும் இந்தச் செயல்பாட்டில் உள்ள நூலகங்கள் மற்றும் செயல்பாடுகளைப் பற்றி விவாதிப்போம்.

அறிமுகம்

அட்டவணைகளை இணைப்பது என்பது தரவு கையாளுதல் மற்றும் பகுப்பாய்வு பணிகளில் செய்யப்படும் ஒரு அடிப்படை செயல்பாடாகும். சில சூழ்நிலைகளில், சவால்களை முன்வைக்கும் தனித்தன்மையற்ற விசையில் டேபிள்களில் சேர வேண்டியிருக்கலாம். இருப்பினும், சக்திவாய்ந்த பைதான் நூலகமான பாண்டாக்களுடன் பணிபுரிவது, அதன் நெகிழ்வான செயல்பாட்டைப் பயன்படுத்தி இந்த சிக்கலை நேர்த்தியாக தீர்க்க அனுமதிக்கிறது.

தனித்தன்மையற்ற விசைகளுடன் பாண்டாஸ் டேட்டாஃப்ரேம்களை இணைத்தல்

பாண்டாக்களில் டேட்டாஃப்ரேம்களில் சேர, தனித்தன்மையற்ற விசைகளில் சேர்வதை ஆதரிக்கும் `மேர்ஜ்()` செயல்பாட்டைப் பயன்படுத்தலாம். இருப்பினும், தனித்தன்மையற்ற விசைகளை இணைப்பதன் முடிவு எதிர்பார்த்ததை விட வித்தியாசமாக இருக்கலாம், ஏனெனில் இது கார்ட்டீசியன் தயாரிப்புக்கு வழிவகுக்கும், இதன் விளைவாக வரும் DataFrame இல் உள்ள வரிசைகளின் எண்ணிக்கையில் குறிப்பிடத்தக்க அதிகரிப்புக்கு வழிவகுக்கும்.

தனித்தன்மையற்ற விசைகளுடன் டேட்டாஃப்ரேம்களில் இணைவதற்கு `merge()` செயல்பாட்டைப் பயன்படுத்துவதற்கான படிப்படியான வழிகாட்டி இங்கே:

import pandas as pd

# Create sample DataFrames
df1 = pd.DataFrame({"key": ["A", "B", "A", "C"], "value": [1, 2, 3, 4]})
df2 = pd.DataFrame({"key": ["A", "B", "A", "D"], "value2": [5, 6, 7, 8]})

# Perform the merge operation
result = df1.merge(df2, on="key", how="inner")

மேலே உள்ள எடுத்துக்காட்டில், நாம் முதலில் பாண்டாஸ் லைப்ரரியை இறக்குமதி செய்து இரண்டு மாதிரி டேட்டாஃப்ரேம்களை (df1 மற்றும் df2) உருவாக்குகிறோம். பின்னர், "முக்கிய" நெடுவரிசையில் உள்ள டேட்டாஃப்ரேம்களில் சேர, `சேர்க்கை()` செயல்பாட்டைப் பயன்படுத்துகிறோம், அதில் தனித்தன்மையற்ற மதிப்புகள் உள்ளன (A மற்றும் B மீண்டும் மீண்டும் வரும்). இரண்டு டேட்டாஃப்ரேம்களிலும் பொருந்தக்கூடிய விசைகளைக் கொண்ட வரிசைகளை மட்டுமே வைத்திருக்க விரும்புவதால், `எப்படி` அளவுரு "உள்" என அமைக்கப்பட்டுள்ளது.

பாண்டாஸ் மெர்ஜ் செயல்பாட்டைப் புரிந்துகொள்வது

பாண்டாஸில் உள்ள `மெர்ஜ்()` செயல்பாடு டேபிள் ஜாயின் செயல்பாடுகளைச் செய்ய மிகவும் சக்திவாய்ந்த மற்றும் நெகிழ்வான கருவியாகும். தனித்தன்மையற்ற விசைகளுடன் டேட்டாஃப்ரேம்களில் இணைவதைத் தவிர, இது பல்வேறு நிலைகளின் தனிப்பயனாக்கத்தை ஆதரிக்கிறது, இதன் விளைவாக வரும் டேட்டாஃப்ரேமின் மீது முழுக் கட்டுப்பாட்டையும் நீங்கள் வைத்திருக்க முடியும்.

`merge()` செயல்பாடு பல முக்கியமான அளவுருக்களைக் கொண்டுள்ளது:

  • விட்டு மற்றும் வலது: இவை இணைக்கப்பட வேண்டிய DataFrames.
  • on: DataFrames இல் இணைவதற்குப் பயன்படுத்தப்பட வேண்டிய நெடுவரிசை(கள்). இது ஒரு நெடுவரிசைப் பெயராகவோ அல்லது பல நெடுவரிசைகளில் சேரும்போது நெடுவரிசைப் பெயர்களின் பட்டியலாகவோ இருக்கலாம்.
  • எப்படி: இது செய்ய வேண்டிய இணைப்பின் வகையை வரையறுக்கிறது. விருப்பங்களில் 'இடது', 'வலது', 'வெளிப்புறம்' மற்றும் 'உள்' ஆகியவை அடங்கும். இயல்புநிலை 'உள்'.
  • பின்னொட்டுகள்: இது ஒன்றுடன் ஒன்று சேரும் நெடுவரிசைகளுக்குப் பயன்படுத்தப்படும் சரம் பின்னொட்டுகள். இயல்புநிலை பின்னொட்டு இடது DataFrame க்கு _x மற்றும் வலது DataFrame க்கு _y ஆகும்.

பல்வேறு வகையான கூட்டு செயல்பாடுகளைச் செய்வதற்கும் வெளியீட்டைத் தனிப்பயனாக்குவதற்கும் உங்கள் தேவைகளுக்கு ஏற்ப இந்த அளவுருக்கள் மாற்றியமைக்கப்படலாம்.

பாண்டாஸில் இதே போன்ற செயல்பாடுகள்

`மெர்ஜ்()` செயல்பாட்டைத் தவிர, டேட்டாஃப்ரேம்களை வெவ்வேறு வழிகளில் இணைப்பதற்கான பிற செயல்பாடுகளையும் பாண்டாஸ் வழங்குகிறது, அவை:

  • தொடர்பு (): இந்தச் செயல்பாடு ஒரு குறிப்பிட்ட அச்சில் டேட்டாஃப்ரேம்களை இணைக்கப் பயன்படுகிறது. அச்சு, இணைத்தல் மற்றும் விசைகள் போன்ற பல்வேறு அளவுருக்களைக் குறிப்பிடுவதன் மூலம் நீங்கள் ஒருங்கிணைப்பைக் கட்டுப்படுத்தலாம்.
  • join (): இது டேட்டாஃப்ரேம் ஆப்ஜெக்ட்களில் சேரும் செயல்பாடுகளைச் செய்வதற்கு வசதியான முறையாகும். இது முக்கியமாக merge() செயல்பாட்டைச் சுற்றி ஒரு ரேப்பர் ஆகும், இடது DataFrame அழைப்பாளர் DataFrame எனக் கருதப்படுகிறது.

முடிவில், pandas `merge()` செயல்பாட்டைப் பயன்படுத்துவதன் மூலம், நீங்கள் தனித்துவமற்ற விசைகளுடன் டேட்டாஃப்ரேம்களில் எளிதாக இணையலாம். `சேர்க்கை()` செயல்பாட்டில் கிடைக்கும் அளவுருக்களின் வளமான தொகுப்பு, பல்வேறு தரவு கையாளுதல் தேவைகளைப் பூர்த்திசெய்து, இணையும் செயல்முறையின் மீது முழுக் கட்டுப்பாட்டை வழங்குகிறது. பாண்டாஸ் நூலகம் தரவு பகுப்பாய்வாளர்களுக்கு இன்றியமையாத கருவியாகத் தொடர்கிறது மேலும் இது DataFrames ஐ திறம்பட ஒருங்கிணைக்கவும் கையாளவும் பல்வேறு செயல்பாடுகளை வழங்குகிறது.

தொடர்புடைய இடுகைகள்:

ஒரு கருத்துரையை