தீர்க்கப்பட்டது: பாண்டாக்களைப் பயன்படுத்தி நெடுவரிசைப் பெயரின்படி தாளில் கலத்தைப் புதுப்பிக்கவும்

தரவு பகுப்பாய்வு உலகில், விரிதாள்களின் பயன்பாடு பொதுவானது, குறிப்பாக ஒரு நெடுவரிசை வடிவத்தில் கட்டமைக்கப்பட்ட தரவுகளுடன் பணிபுரியும் போது. Python இல் விரிதாள் தரவுகளுடன் பணிபுரியும் பிரபலமான நூலகங்களில் ஒன்று Pandas ஆகும். இந்த சக்திவாய்ந்த நூலகம் டெவலப்பர்களை அட்டவணைத் தரவை எளிதாகப் படிக்கவும், கையாளவும் மற்றும் ஏற்றுமதி செய்யவும் அனுமதிக்கிறது. இந்தக் கட்டுரையில், ஒரு குறிப்பிட்ட சிக்கலில் கவனம் செலுத்துவோம்: பாண்டாஸைப் பயன்படுத்தி ஒரு தாளில் உள்ள கலங்களை நெடுவரிசைப் பெயரில் புதுப்பித்தல். குறியீட்டின் படிப்படியான விளக்கத்தைத் தொடர்ந்து, தீர்வுக்கு முழுக்குப்போம், இறுதியில் குறியீட்டுகளுடன் பணிபுரிவது மற்றும் தரவைத் தேர்ந்தெடுப்பது போன்ற தொடர்புடைய கருத்துகள் மற்றும் செயல்பாடுகளை பாண்டாஸில் விவாதிப்போம். எனவே, ஆரம்பிக்கலாம்.

பாண்டாக்களைப் பயன்படுத்தி நெடுவரிசைப் பெயரின்படி கலங்களைப் புதுப்பித்தல்

ஒரு தாளில் உள்ள கலங்களை நெடுவரிசைப் பெயரால் புதுப்பிக்க, பின்வரும் கட்டளையைப் பயன்படுத்தி பாண்டாஸ் நூலகம் ஏற்கனவே நிறுவப்படவில்லை என்றால் முதலில் அதை நிறுவ வேண்டும்:

!pip install pandas

Pandas நிறுவப்பட்டவுடன், ஒரு தாளில் உள்ள கலங்களை நெடுவரிசைப் பெயரால் புதுப்பிப்பதற்கான படிகளை கோடிட்டுக் காட்டுவோம்:

1. டேட்டாஃப்ரேம் பொருளில் தாளை ஏற்றவும்.
2. நாங்கள் புதுப்பிக்க விரும்பும் கலங்களை அணுகவும்.
3. புதிய மதிப்புகளை ஒதுக்குவதன் மூலம் விரும்பிய கலங்களை மாற்றவும்.
4. DataFrame பொருளை மீண்டும் தாளில் சேமிக்கவும்.

எளிய உதாரணத்துடன் தீர்வை விளக்கும் குறியீடு துணுக்கு இதோ:

import pandas as pd

# Load data from a CSV file into a DataFrame object
df = pd.read_csv('your_spreadsheet.csv')

# Access and update the desired cells - let's update column 'Age' by adding 1 to each value
df['Age'] = df['Age'] + 1

# Save the updated DataFrame back to the CSV file
df.to_csv('your_updated_spreadsheet.csv', index=False)

குறியீட்டைப் புரிந்துகொள்வது

முதல் படியாக `pd` என்ற மாற்றுப்பெயரின் கீழ் பாண்டாஸ் நூலகத்தை இறக்குமதி செய்ய வேண்டும். அடுத்து, உள்ளீட்டு கோப்பு பெயரை ('your_spreadsheet.csv') குறிப்பிடுவதன் மூலம் `pd.read_csv()` செயல்பாட்டைப் பயன்படுத்தி CSV கோப்பிலிருந்து தரவை DataFrame பொருளில் ஏற்ற வேண்டும்.

இப்போது சிக்கலின் முக்கிய பகுதி வருகிறது: விரும்பிய கலங்களை அணுகுதல் மற்றும் புதுப்பித்தல். இந்த எடுத்துக்காட்டில், நெடுவரிசையில் உள்ள ஒவ்வொரு மதிப்புக்கும் 1ஐச் சேர்ப்பதன் மூலம் 'வயது' நெடுவரிசையைப் புதுப்பிக்க விரும்புகிறோம். 'df['Age']` என்ற தொடரியல் பயன்படுத்தி அணுகப்படும் 'வயது' நெடுவரிசையில் 1ஐச் சேர்ப்பதன் மூலம் இதைச் செய்கிறோம். இந்தக் குறியீடு 'வயது' நெடுவரிசையில் உள்ள ஒவ்வொரு உருப்படிக்கும் உறுப்பு வாரியாக 1ஐச் சேர்க்கும்.

இறுதியாக, புதுப்பிக்கப்பட்ட DataFrame ஐ CSV கோப்பில் `df.to_csv()` செயல்பாட்டைப் பயன்படுத்தி வெளியீட்டு கோப்பு பெயருடன் ('your_updated_spreadsheet.csv') சேமிக்கிறோம். வரிசை எண்களை வெளியீட்டு கோப்பில் எழுதுவதைத் தவிர்க்க `index=False` அளவுரு பயன்படுத்தப்படுகிறது.

பாண்டாஸ் குறியீடுகள் மற்றும் தரவைத் தேர்ந்தெடுப்பது

தரவைத் தேர்ந்தெடுப்பதற்கும் கையாளுவதற்கும் பாண்டாஸ் குறியீடுகளின் கருத்தை பெரிதும் நம்பியுள்ளது. இயல்பாக, ஒரு கோப்பிலிருந்து தரவை ஏற்றும் போது, ​​Pandas ஒதுக்குகிறது a எண் குறியீடு DataFrame இன் ஒவ்வொரு வரிசையிலும், 0 இலிருந்து தொடங்குகிறது. Pandas இல் தரவுகளுடன் பணிபுரியும் போது, ​​பல்வேறு வழிகளைப் புரிந்துகொள்வது அவசியம் தரவைத் தேர்ந்தெடுத்து வடிகட்டுதல் குறியீட்டு மதிப்புகள் அல்லது நெடுவரிசைப் பெயர்களின் அடிப்படையில்.

எடுத்துக்காட்டாக, ஒரு குறிப்பிட்ட வரிசை அல்லது வரிசைகளைத் தேர்ந்தெடுக்க, நீங்கள் `iloc` இன்டெக்ஸரைப் பயன்படுத்தலாம், இது வரிசைகளை அவற்றின் முழு எண் குறியீட்டின் அடிப்படையில் அணுக அனுமதிக்கிறது:

# Select the first row of the DataFrame
first_row = df.iloc[0]

# Select rows 1 to 3 (excluding 3)
rows_1_to_2 = df.iloc[1:3]

ஒரு குறிப்பிட்ட நிபந்தனையின் அடிப்படையில் கலங்களைப் புதுப்பிக்க வேண்டும், அதாவது மற்றொரு நெடுவரிசையில் (எ.கா., 'நகரம்') குறிப்பிட்ட மதிப்பு உள்ள வரிசைகளுக்கு மட்டும் 'வயது' நெடுவரிசையைப் புதுப்பித்தல், நீங்கள் பூலியன் அட்டவணையைப் பயன்படுத்தலாம்:

# Update the 'Age' column by adding 1, only for rows where 'City' is equal to 'New York'
df.loc[df['City'] == 'New York', 'Age'] = df['Age'] + 1

இந்த எடுத்துக்காட்டில், பூலியன் நிபந்தனையின் அடிப்படையில் வரிசைகளைத் தேர்ந்தெடுக்க `loc` இன்டெக்ஸர் பயன்படுத்தப்படுகிறது, பின்னர் 'வயது' நெடுவரிசை புதுப்பிக்கப்படும்.

பாண்டாஸில் தரவுகளுடன் பணிபுரியும் போது இது பனிப்பாறையின் முனை மட்டுமே என்பதை நினைவில் கொள்ளுங்கள். உங்கள் தரவை திறம்பட கையாளவும், பகுப்பாய்வு செய்யவும் மற்றும் காட்சிப்படுத்தவும் ஏராளமான செயல்பாடுகள் மற்றும் நுட்பங்களை நூலகம் வழங்குகிறது. ஒரு தாளில் உள்ள கலங்களை நெடுவரிசைப் பெயரால் புதுப்பித்தல் போன்ற அடிப்படைகளைப் புரிந்துகொள்வது, எதிர்காலத்தில் மிகவும் சிக்கலான தரவு கட்டமைப்புகள் மற்றும் பகுப்பாய்வுப் பணிகளுடன் பணியாற்றுவதற்கான வலுவான அடித்தளத்தை அமைக்கிறது.

தொடர்புடைய இடுகைகள்:

ஒரு கருத்துரையை