தீர்க்கப்பட்டது: பாண்டாக்கள் s3 இலிருந்து பார்க்வெட்டைப் படித்தனர்

இன்றைய பேஷன்-உந்துதல் உலகில், பெரிய தரவுத் தொகுப்புகளைக் கையாள்வது மிகவும் பொதுவானது, மேலும் Pandas என்பது Python இல் உள்ள பிரபலமான நூலகமாகும், இது சக்திவாய்ந்த, பயன்படுத்த எளிதான தரவு கையாளுதல் கருவிகளை வழங்குகிறது. பல்வேறு வகையான தரவு வடிவங்களில், பார்க்வெட் அதன் திறமையான நெடுவரிசை சேமிப்பு மற்றும் இலகுரக தொடரியல் ஆகியவற்றிற்கு பரவலாகப் பயன்படுத்தப்படுகிறது. Amazon S3 என்பது உங்கள் கோப்புகளுக்கான பிரபலமான சேமிப்பக விருப்பமாகும், மேலும் அதை பாண்டாக்களுடன் ஒருங்கிணைப்பது உங்கள் பணிப்பாய்வுகளை கணிசமாக மேம்படுத்தும். இந்த கட்டுரையில், சக்திவாய்ந்த பாண்டாஸ் நூலகத்தைப் பயன்படுத்தி Amazon S3 இலிருந்து பார்க்வெட் கோப்புகளை எவ்வாறு படிப்பது என்பதை ஆராய்வோம்.

S3 இலிருந்து பார்க்வெட் கோப்புகளைப் படிப்பதில் உள்ள சிக்கலைத் தீர்க்க, முக்கிய கூறுகள் மற்றும் நூலகங்களை நீங்கள் புரிந்து கொள்ள வேண்டும். நாம் பயன்படுத்தும் இரண்டு முக்கிய நூலகங்கள் பாண்டாக்கள் மற்றும் s3fs ஆகும். Pandas தரவு செயலாக்கத்தை கையாளும், அதே நேரத்தில் s3fs Amazon S3 உடன் இணைப்பை வழங்கும்.

import pandas as pd
import s3fs

பாண்டாஸ் நூலகம்

பாண்டாக்கள் பைத்தானில் சக்திவாய்ந்த தரவு கையாளுதல் மற்றும் பகுப்பாய்வு கருவிகளை வழங்கும் ஒரு திறந்த மூல நூலகம் ஆகும். இது தரவு அறிவியல் சமூகத்தால் பரவலாகப் பயன்படுத்தப்படுகிறது, அதன் நெகிழ்வுத்தன்மை மற்றும் பார்க்வெட் கோப்புகள் உட்பட பல்வேறு தரவு வடிவங்களுடன் பணிபுரியும் திறனுக்கு நன்றி. பாண்டாக்கள் மூலம், நீங்கள் எளிதாக தரவை ஏற்றலாம், பகுப்பாய்வு செய்யலாம் மற்றும் கையாளலாம், உங்கள் தரவின் வடிவங்கள் மற்றும் போக்குகளை விரைவாக ஆராய்ந்து புரிந்து கொள்ள உதவுகிறது.

S3fs நூலகம்

S3fs Amazon S3 பொருட்களை தடையின்றி அணுகுவதற்கு பைதான் கோப்பு போன்ற இடைமுகம். இது Boto3 மற்றும் FUSE (பயனர் இடத்தில் கோப்பு முறைமை) ஆகியவற்றின் செயல்பாட்டை ஒருங்கிணைக்கிறது, இது S3 ஆப்ஜெக்ட்களுடன் உள்ளூர் கோப்புகளைப் போல வேலை செய்வதை நம்பமுடியாத அளவிற்கு எளிதாக்குகிறது. s3fs மூலம், நீங்கள் S3 இலிருந்து கோப்புகளைப் படிக்கலாம் மற்றும் எழுதலாம், பொருட்களைப் பட்டியலிடலாம் மற்றும் நீக்கலாம் மற்றும் பிற கோப்பு செயல்பாடுகளை பைதான் மூலம் நேரடியாகச் செய்யலாம்.

இப்போது நீங்கள் சம்பந்தப்பட்ட நூலகங்களைப் புரிந்து கொண்டீர்கள், Pandas மற்றும் s3fs ஐப் பயன்படுத்தி S3 இலிருந்து பார்க்வெட் கோப்புகளைப் படிப்பது பற்றிய படிப்படியான விளக்கத்தைப் பார்ப்போம்.

  1. பாண்டாக்கள் மற்றும் s3fs ஐ நிறுவவும் - முதலில், நீங்கள் pip மூலம் பாண்டாக்கள் மற்றும் s3fs நூலகங்கள் இரண்டையும் நிறுவ வேண்டும்:
pip install pandas s3fs
  1. நூலகங்களை இறக்குமதி செய் - பாண்டாக்கள் மற்றும் s3fs நூலகங்கள் இரண்டையும் இறக்குமதி செய்வதன் மூலம் தொடங்கவும்:
import pandas as pd
import s3fs
  1. உள்ளமைவை அமைக்கவும் - உங்கள் Amazon S3 நற்சான்றிதழ்களை நேரடியாக s3fsக்கு அனுப்புவதன் மூலம் அல்லது AWS_ACCESS_KEY_ID மற்றும் AWS_SECRET_ACCESS_KEY மூலம் உங்கள் சூழலை உள்ளமைப்பதன் மூலம் அமைக்கவும்:
fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)
  1. S3 இலிருந்து பார்க்வெட் கோப்பைப் படிக்கவும் - உங்கள் பார்க்வெட் கோப்பைப் படிக்க பாண்டாக்கள் மற்றும் s3fs ஐப் பயன்படுத்தவும்:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

இந்த படிகளைச் செயல்படுத்திய பிறகு, S3 இலிருந்து உங்கள் பார்க்வெட் கோப்பை நீங்கள் வெற்றிகரமாகப் படித்திருக்க வேண்டும் டேட்டாஃப்ரேம் 'டிஎஃப்' இப்போது உங்கள் S3 தரவு அட்டவணை வடிவத்தில் உள்ளது.

இந்த கட்டுரையில், டேட்டா கையாளுதலுக்கான சக்திவாய்ந்த பாண்டாஸ் லைப்ரரி மற்றும் தடையற்ற S3 இணைப்புக்கான s3fs ஐப் பயன்படுத்தி Amazon S3 இலிருந்து பார்க்வெட் கோப்புகளை எவ்வாறு அணுகுவது மற்றும் படிப்பது என்பதைப் பார்த்தோம். இந்த கருவிகள் உங்கள் தரவு செயலாக்க பணிப்பாய்வுகளை பெரிதும் மேம்படுத்தலாம் மற்றும் நுண்ணறிவுகளைப் பிரித்தெடுப்பதில் கவனம் செலுத்தவும், ஃபேஷன் உலகில் சமீபத்திய போக்குகளைப் புரிந்து கொள்ளவும் உங்களை அனுமதிக்கும். பல்வேறு பாணி சேர்க்கைகளை ஆராய்வது முதல் ஆடை போக்குகளின் வரலாறு மற்றும் பரிணாமத்தை பகுப்பாய்வு செய்வது வரை, உங்கள் தரவில் மறைந்திருக்கும் ரத்தினங்களை வெளிக்கொணர்வதை பாண்டாக்கள் எளிதாக்குகின்றன.

தொடர்புடைய இடுகைகள்:

ஒரு கருத்துரையை