இன்றைய உலகில், தரவு பகுப்பாய்வு அதிக முக்கியத்துவம் பெற்றுள்ளது, மேலும் தரவு ஆய்வாளர்கள் மற்றும் தரவு விஞ்ஞானிகளால் பயன்படுத்தப்படும் மிகவும் பிரபலமான கருவிகளில் ஒன்று பாண்டாஸ் நூலகத்துடன் கூடிய பைதான் ஆகும். Pandas என்பது சக்திவாய்ந்த, திறந்த மூல தரவு பகுப்பாய்வு மற்றும் கையாளுதல் கருவியாகும், இது தரவு கட்டமைப்புகள் மற்றும் தொடர்களை எளிதாக கையாள அனுமதிக்கிறது. பயனர்கள் சந்திக்கும் ஒரு பொதுவான பிரச்சனை, மிகவும் துல்லியமான மற்றும் நடைமுறை பகுப்பாய்வுக்காக பிறந்த தேதிகளை வயதாக மாற்றுவதாகும். இந்தக் கட்டுரையில், குறியீட்டை செயல்படுத்துவதற்கான தெளிவான எடுத்துக்காட்டுகள் மற்றும் விளக்கங்களுடன் இந்த சிக்கலை எவ்வாறு சமாளிப்பது என்பதை ஆராய்வோம்.
Pandas என்பது ஒரு பல்துறை கருவியாகும், இது பெரும்பாலும் DateTime பொருட்களுடன் வேலை செய்வதை உள்ளடக்கியது - இது பிறந்த தேதிகளைக் கையாளும் போது நடக்கும். பிறந்த தேதிகளை வயதாக மாற்றுவதற்கான முதல் படிக்கு DateTime நூலகத்துடன் எளிய எண்கணிதம் தேவைப்படுகிறது. தனிநபர்களின் பிறந்த தேதிக்கும் தற்போதைய தேதிக்கும் உள்ள வித்தியாசத்தைக் கணக்கிடுவதன் மூலம் அவர்களின் வயதைக் கண்டறிய இது உதவும்.
தேவையான நூலகங்களை இறக்குமதி செய்வதன் மூலம் தொடங்குவோம்:
import pandas as pd from datetime import datetime
அடுத்து, தனிநபர்களைப் பற்றிய பின்வரும் தரவுகளைக் கொண்ட எளிய தரவுத்தொகுப்பைக் கவனியுங்கள்:
data = {'Name': ['John', 'Paul', 'George', 'Ringo'], 'Birth_Date': ['1940-10-09', '1942-06-18', '1943-02-25', '1940-07-07'] } df = pd.DataFrame(data) df['Birth_Date'] = pd.to_datetime(df['Birth_Date'])
மேலே உள்ள குறியீட்டில், 'Birth_Date' நெடுவரிசையை DateTime ஆப்ஜெக்ட்களாக மாற்றுகிறோம்.
வயதைக் கணக்கிடுதல்
இப்போது, இந்த நபர்களின் பிறந்த தேதிக்கும் தற்போதைய தேதிக்கும் உள்ள வித்தியாசத்தைக் கண்டறிந்து அவர்களின் வயதைக் கணக்கிடத் தயாராக உள்ளோம். இதைச் செய்ய, பின்வரும் படிகளைப் பின்பற்றவும்:
1. பிறந்த தேதியை உள்ளீடாக எடுத்து நபரின் வயதை வழங்கும் 'calculate_age' என்ற செயல்பாட்டை உருவாக்கவும்.
2. டேட்டாஃப்ரேமில் உள்ள 'பிறந்த_தேதி' நெடுவரிசையில் இந்தச் செயல்பாட்டைப் பயன்படுத்தவும்.
மேலே உள்ள தர்க்கத்தை செயல்படுத்துவதற்கான குறியீடு இதோ:
def calculate_age(birth_date): today = datetime.now() age = today.year - birth_date.year - ((today.month, today.day) < (birth_date.month, birth_date.day)) return age df['Age'] = df['Birth_Date'].apply(calculate_age)
இந்தக் குறியீட்டுத் துணுக்கில், பிறந்த_தேதியை உள்ளீடாகப் பெறும் 'calculate_age' எனும் செயல்பாட்டை உருவாக்கி, datetime.now()ஐப் பயன்படுத்தி தற்போதைய தேதியைக் கணக்கிடுகிறோம், மேலும் அந்த நபரின் பிறந்த ஆண்டை நடப்பு ஆண்டிலிருந்து கழிப்பதன் மூலம் அவரது வயதைக் கணக்கிடுகிறோம். அவர்களின் என்றால் இந்த ஆண்டு பிறந்த தேதி வரவில்லை, கூடுதல் ஆண்டைக் கழிக்கிறோம்.
இறுதியாக, இந்தச் செயல்பாட்டை 'பிறந்த_தேதி' நெடுவரிசையில் apply() முறையைப் பயன்படுத்திப் பயன்படுத்துகிறோம், மேலும் கணக்கிடப்பட்ட வயதுகள் DataFrame இல் புதிய 'வயது' நெடுவரிசையில் சேமிக்கப்படும்.
வயதைக் கணக்கிடுவதற்கு நம்பி மற்றும் பாண்டாக்களைப் பயன்படுத்துதல்
மாற்றாக, இந்த பணிக்காக பாண்டாக்களுடன் இணைந்து சக்திவாய்ந்த நம்பி லைப்ரரியை நாம் பயன்படுத்தலாம். நம்பியைப் பயன்படுத்தி பிறந்த தேதியை வயதுக்கு மாற்ற, இந்தப் படிகளைப் பின்பற்றவும்:
1. நம்பி லைப்ரரியை இறக்குமதி செய்.
2. வயதைக் கணக்கிட, நம்பி 'ஃப்ளோர்' செயல்பாட்டைப் பயன்படுத்தவும்.
இதை எப்படி செய்வது என்பதற்கான எடுத்துக்காட்டு இங்கே:
import numpy as np df['Age'] = np.floor((datetime.now() - df['Birth_Date']).dt.days / 365.25)
இந்தக் குறியீடு நம்பியின் 'ஃப்ளோர்' செயல்பாட்டைப் பயன்படுத்தி, ஃப்ளோட்டிங்-பாயின்ட் பிரிவின் முடிவைச் சுருக்குகிறது. நாட்களின் எண்ணிக்கை பிறந்த தேதியிலிருந்து 365.25 (லீப் ஆண்டுகளை கணக்கில் எடுத்துக்கொள்வது).
சுருக்கமாக, பாண்டாக்கள் மற்றும் தேதிநேரம் அல்லது பாண்டாக்கள் மற்றும் நம்பி போன்ற நூலகங்களை மேம்படுத்துவதன் மூலம், தரவுத்தொகுப்பில் பிறந்த தேதி நெடுவரிசைகளை வயதுக்கு மாற்றுவது தடையற்றதாகிறது. விளக்கப்பட்ட படிகளைப் பின்பற்றி, இந்தக் கட்டுரையில் வழங்கப்பட்ட குறியீட்டைப் புரிந்துகொள்வது, அத்தகைய தரவைக் கையாளவும் மேலும் திறமையான மற்றும் துல்லியமான பகுப்பாய்வை மேற்கொள்ளவும் உங்களுக்கு அறிவு கிடைக்கும்.