La xaliyay: pandas ayaa akhriyay parquet ka s3

Dunida casriga ah ee moodada lagu hogaamiyo, wax ka qabashada xogta waaweyn waa wax caadi ah, pandas-na waa maktabad caan ah oo ku taal Python oo bixisa qalab xogeed awood leh oo si sahlan loo isticmaali karo. Waxaa ka mid ah noocyada ugu badan ee qaababka xogta, Parquet waxaa si weyn loogu isticmaalaa kaydinta tiirarka hufan iyo syntax fudud. Amazon S3 waa kaydinta caanka ah ee faylalkaaga, oo lagu daro pandas waxay si weyn u wanaajin kartaa socodka shaqadaada. Maqaalkan, waxaan ku baari doonaa sida loo akhriyo faylasha Parquet ee Amazon S3 iyadoo la adeegsanayo maktabadda pandas ee xoogga leh.

Si aad u xalliso dhibaatada akhrinta faylasha Parquet ee S3, waxaad u baahan tahay inaad fahamto qaybaha muhiimka ah iyo maktabadaha ku lug leh. Labada maktabadood ee ugu muhiimsan ee aan isticmaali doono waa pandas iyo s3fs. Pandas ayaa maamuli doonta habaynta xogta, halka s3fs ay bixin doonto isku xidhka Amazon S3.

import pandas as pd
import s3fs

Pandas Library

Baandooyinka waa maktabad il furan oo ku bixisa qalabaynta xogta iyo baadhista xoogga leh ee Python. Waxaa si weyn u isticmaala bulshada sayniska xogta, iyada oo ay ugu wacan tahay dabacsanaanteeda iyo awoodda ay ula shaqeyso qaabab xogeed oo kala duwan, oo ay ku jiraan faylasha Parquet. Pandas-ka, waxaad si fudud u rari kartaa, u lafa-guri kartaa, oo aad u maamuli kartaa xogta, taasoo awood kuu siinaysa inaad si dhakhso ah u baadho oo aad u fahanto qaababka iyo isbeddellada xogtaada.

Maktabadda S3fs

S3fs waa faylal u eg Python interface oo si aan kala go 'lahayn loogu galo walxaha Amazon S3. Waxay isku daraysaa shaqeynta Boto3 iyo FUSE (Filesystem in Userspace), taasoo ka dhigaysa mid aad u fudud in lagu shaqeeyo walxaha S3 sida haddii ay yihiin faylal maxalli ah. Iyada oo loo marayo s3fs, waxaad akhrin kartaa oo qori kartaa faylasha S3, waxaad qori kartaa oo tirtiri kartaa walxaha, oo waxaad si toos ah u samayn kartaa hawlo kale oo faylasha ah Python.

Hadda oo aad fahamtay maktabadaha ku lug leh, aan u marno sharraxaadda tallaabo-tallaabo ee akhrinta faylasha Parquet ee S3 annaga oo isticmaalaya pandas iyo s3fs.

  1. Ku rakib pandas iyo s3fs - Marka hore, waxaad u baahan tahay inaad ku rakibto labada pandas iyo s3fs maktabadaha iyada oo loo marayo pip:
pip install pandas s3fs
  1. Soo rar maktabadaha - Ku bilow soo dejinta pandas iyo s3fs labbadaba maktabadaha:
import pandas as pd
import s3fs
  1. Deji qaabeynta - Deji shahaadooyinkaaga Amazon S3 adiga oo si toos ah ugu gudbinaya s3fs ama ku habaynaya deegaankaaga AWS_ACCESS_KEY_ID iyo AWS_SECRET_ACCESS_KEY:
fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)
  1. Akhri faylka Parquet ee S3 - Isticmaal pandas iyo s3fs si aad u akhrido faylkaaga Parquet:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

Kadib fulinta talaabooyinkan, waa inaad si guul leh u akhriday faylkaaga Parquet ee S3, iyo kan Dataframe 'df' Hadda waxa ay ka kooban tahay xogtaada S3 oo qaab tabular ah.

Maqaalkan, waxaan ku aragnay sida loo galo oo loo akhriyo faylasha Parquet ee Amazon S3 iyada oo la adeegsanayo maktabadda pandas ee xoogga leh ee wax-is-beddelka xogta iyo s3fs ee isku-xirnaanta S3 ee aan fiicnayn. Qalabyadani waxay si weyn u wanaajin karaan habaynta xogtaada socodka shaqada waxayna kuu oggolaanayaan inaad diirada saarto soo saarista fikradaha iyo fahamka isbeddelada ugu dambeeyay ee adduunka moodada. Laga soo bilaabo sahaminta qaababka kala duwan ee isku darka ilaa falanqaynta taariikhda iyo kobcinta isbeddellada dharka, pandas waxay fududaynaysaa daaha ka qaadida dhagaxyada qarsoon ee xogtaada.

Related posts:

Leave a Comment