தரவு பகுப்பாய்வு உலகில், விரிதாள்களின் பயன்பாடு பொதுவானது, குறிப்பாக ஒரு நெடுவரிசை வடிவத்தில் கட்டமைக்கப்பட்ட தரவுகளுடன் பணிபுரியும் போது. Python இல் விரிதாள் தரவுகளுடன் பணிபுரியும் பிரபலமான நூலகங்களில் ஒன்று Pandas ஆகும். இந்த சக்திவாய்ந்த நூலகம் டெவலப்பர்களை அட்டவணைத் தரவை எளிதாகப் படிக்கவும், கையாளவும் மற்றும் ஏற்றுமதி செய்யவும் அனுமதிக்கிறது. இந்தக் கட்டுரையில், ஒரு குறிப்பிட்ட சிக்கலில் கவனம் செலுத்துவோம்: பாண்டாஸைப் பயன்படுத்தி ஒரு தாளில் உள்ள கலங்களை நெடுவரிசைப் பெயரில் புதுப்பித்தல். குறியீட்டின் படிப்படியான விளக்கத்தைத் தொடர்ந்து, தீர்வுக்கு முழுக்குப்போம், இறுதியில் குறியீட்டுகளுடன் பணிபுரிவது மற்றும் தரவைத் தேர்ந்தெடுப்பது போன்ற தொடர்புடைய கருத்துகள் மற்றும் செயல்பாடுகளை பாண்டாஸில் விவாதிப்போம். எனவே, ஆரம்பிக்கலாம்.
பாண்டாக்களைப் பயன்படுத்தி நெடுவரிசைப் பெயரின்படி கலங்களைப் புதுப்பித்தல்
ஒரு தாளில் உள்ள கலங்களை நெடுவரிசைப் பெயரால் புதுப்பிக்க, பின்வரும் கட்டளையைப் பயன்படுத்தி பாண்டாஸ் நூலகம் ஏற்கனவே நிறுவப்படவில்லை என்றால் முதலில் அதை நிறுவ வேண்டும்:
!pip install pandas
Pandas நிறுவப்பட்டவுடன், ஒரு தாளில் உள்ள கலங்களை நெடுவரிசைப் பெயரால் புதுப்பிப்பதற்கான படிகளை கோடிட்டுக் காட்டுவோம்:
1. டேட்டாஃப்ரேம் பொருளில் தாளை ஏற்றவும்.
2. நாங்கள் புதுப்பிக்க விரும்பும் கலங்களை அணுகவும்.
3. புதிய மதிப்புகளை ஒதுக்குவதன் மூலம் விரும்பிய கலங்களை மாற்றவும்.
4. DataFrame பொருளை மீண்டும் தாளில் சேமிக்கவும்.
எளிய உதாரணத்துடன் தீர்வை விளக்கும் குறியீடு துணுக்கு இதோ:
import pandas as pd # Load data from a CSV file into a DataFrame object df = pd.read_csv('your_spreadsheet.csv') # Access and update the desired cells - let's update column 'Age' by adding 1 to each value df['Age'] = df['Age'] + 1 # Save the updated DataFrame back to the CSV file df.to_csv('your_updated_spreadsheet.csv', index=False)
குறியீட்டைப் புரிந்துகொள்வது
முதல் படியாக `pd` என்ற மாற்றுப்பெயரின் கீழ் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்ய வேண்டும். அடுத்து, உள்ளீட்டு கோப்பு பெயரை ('your_spreadsheet.csv') குறிப்பிடுவதன் மூலம் `pd.read_csv()` செயல்பாட்டைப் பயன்படுத்தி CSV கோப்பிலிருந்து தரவை DataFrame பொருளில் ஏற்ற வேண்டும்.
இப்போது சிக்கலின் முக்கிய பகுதி வருகிறது: விரும்பிய கலங்களை அணுகுதல் மற்றும் புதுப்பித்தல். இந்த எடுத்துக்காட்டில், நெடுவரிசையில் உள்ள ஒவ்வொரு மதிப்புக்கும் 1ஐச் சேர்ப்பதன் மூலம் 'வயது' நெடுவரிசையைப் புதுப்பிக்க விரும்புகிறோம். 'df['Age']` என்ற தொடரியல் பயன்படுத்தி அணுகப்படும் 'வயது' நெடுவரிசையில் 1ஐச் சேர்ப்பதன் மூலம் இதைச் செய்கிறோம். இந்தக் குறியீடு 'வயது' நெடுவரிசையில் உள்ள ஒவ்வொரு உருப்படிக்கும் உறுப்பு வாரியாக 1ஐச் சேர்க்கும்.
இறுதியாக, புதுப்பிக்கப்பட்ட DataFrame ஐ CSV கோப்பில் `df.to_csv()` செயல்பாட்டைப் பயன்படுத்தி வெளியீட்டு கோப்பு பெயருடன் ('your_updated_spreadsheet.csv') சேமிக்கிறோம். வரிசை எண்களை வெளியீட்டு கோப்பில் எழுதுவதைத் தவிர்க்க `index=False` அளவுரு பயன்படுத்தப்படுகிறது.
பாண்டாஸ் குறியீடுகள் மற்றும் தரவைத் தேர்ந்தெடுப்பது
தரவைத் தேர்ந்தெடுப்பதற்கும் கையாளுவதற்கும் பாண்டாஸ் குறியீடுகளின் கருத்தை பெரிதும் நம்பியுள்ளது. இயல்பாக, ஒரு கோப்பிலிருந்து தரவை ஏற்றும் போது, Pandas ஒதுக்குகிறது a எண் குறியீடு DataFrame இன் ஒவ்வொரு வரிசையிலும், 0 இலிருந்து தொடங்குகிறது. Pandas இல் தரவுகளுடன் பணிபுரியும் போது, பல்வேறு வழிகளைப் புரிந்துகொள்வது அவசியம் தரவைத் தேர்ந்தெடுத்து வடிகட்டுதல் குறியீட்டு மதிப்புகள் அல்லது நெடுவரிசைப் பெயர்களின் அடிப்படையில்.
எடுத்துக்காட்டாக, ஒரு குறிப்பிட்ட வரிசை அல்லது வரிசைகளைத் தேர்ந்தெடுக்க, நீங்கள் `iloc` இன்டெக்ஸரைப் பயன்படுத்தலாம், இது வரிசைகளை அவற்றின் முழு எண் குறியீட்டின் அடிப்படையில் அணுக அனுமதிக்கிறது:
# Select the first row of the DataFrame first_row = df.iloc[0] # Select rows 1 to 3 (excluding 3) rows_1_to_2 = df.iloc[1:3]
ஒரு குறிப்பிட்ட நிபந்தனையின் அடிப்படையில் கலங்களைப் புதுப்பிக்க வேண்டும், அதாவது மற்றொரு நெடுவரிசையில் (எ.கா., 'நகரம்') குறிப்பிட்ட மதிப்பு உள்ள வரிசைகளுக்கு மட்டும் 'வயது' நெடுவரிசையைப் புதுப்பித்தல், நீங்கள் பூலியன் அட்டவணையைப் பயன்படுத்தலாம்:
# Update the 'Age' column by adding 1, only for rows where 'City' is equal to 'New York' df.loc[df['City'] == 'New York', 'Age'] = df['Age'] + 1
இந்த எடுத்துக்காட்டில், பூலியன் நிபந்தனையின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுக்க `loc` இன்டெக்ஸர் பயன்படுத்தப்படுகிறது, பின்னர் 'வயது' நெடுவரிசை புதுப்பிக்கப்படும்.
பாண்டாஸில் தரவுகளுடன் பணிபுரியும் போது இது பனிப்பாறையின் முனை மட்டுமே என்பதை நினைவில் கொள்ளுங்கள். உங்கள் தரவை திறம்பட கையாளவும், பகுப்பாய்வு செய்யவும் மற்றும் காட்சிப்படுத்தவும் ஏராளமான செயல்பாடுகள் மற்றும் நுட்பங்களை நூலகம் வழங்குகிறது. ஒரு தாளில் உள்ள கலங்களை நெடுவரிசைப் பெயரால் புதுப்பித்தல் போன்ற அடிப்படைகளைப் புரிந்துகொள்வது, எதிர்காலத்தில் மிகவும் சிக்கலான தரவு கட்டமைப்புகள் மற்றும் பகுப்பாய்வுப் பணிகளுடன் பணியாற்றுவதற்கான வலுவான அடித்தளத்தை அமைக்கிறது.