Solved: pandas read parquet from s3 in Pandas

Në botën e sotme të drejtuar nga moda, ballafaqimi me grupe të mëdha të dhënash është mjaft i zakonshëm dhe pandat janë një bibliotekë popullore në Python që ofron mjete të fuqishme dhe të lehta për t'u përdorur për manipulimin e të dhënave. Ndër shumëllojshmërinë e madhe të formateve të të dhënave, Parketi përdoret gjerësisht për ruajtjen e tij efikase në kolonë dhe sintaksën e lehtë. Amazon S3 është një opsion i njohur ruajtjeje për skedarët tuaj dhe integrimi i tij me pandat mund të përmirësojë ndjeshëm rrjedhën tuaj të punës. Në këtë artikull, ne do të shqyrtojmë se si të lexojmë skedarët e Parketit nga Amazon S3 duke përdorur bibliotekën e fuqishme të pandave.

Për të zgjidhur problemin e leximit të skedarëve të Parketit nga S3, duhet të kuptoni përbërësit kryesorë dhe bibliotekat e përfshira. Dy bibliotekat kryesore që do të përdorim janë pandat dhe s3fs. Pandat do të merren me përpunimin e të dhënave, ndërsa s3fs do të sigurojë lidhjen me Amazon S3.

import pandas as pd
import s3fs

Biblioteka e Pandave

Pandas është një bibliotekë me burim të hapur që ofron mjete të fuqishme të manipulimit dhe analizës së të dhënave në Python. Përdoret gjerësisht nga komuniteti i shkencës së të dhënave, falë fleksibilitetit dhe aftësisë së tij për të punuar me formate të ndryshme të të dhënave, duke përfshirë skedarët Parquet. Me pandat, ju lehtë mund të ngarkoni, analizoni dhe manipuloni të dhënat, duke ju mundësuar të eksploroni dhe kuptoni shpejt modelet dhe tendencat në të dhënat tuaja.

Biblioteka S3fs

S3fs është një ndërfaqe e ngjashme me skedarin Python për të hyrë pa probleme në objektet e Amazon S3. Ai kombinon funksionalitetin e Boto3 dhe FUSE (Skedari në hapësirën e përdoruesit), duke e bërë tepër të lehtë punën me objektet S3 sikur të ishin skedarë lokalë. Nëpërmjet s3fs, ju mund të lexoni dhe shkruani skedarë nga S3, të listoni dhe fshini objekte dhe të kryeni operacione të tjera skedarësh drejtpërdrejt me Python.

Tani që i kuptoni bibliotekat e përfshira, le të kalojmë në shpjegimin hap pas hapi të leximit të skedarëve të Parketit nga S3 duke përdorur panda dhe s3fs.

Instaloni panda dhe s3fs – Së pari, duhet të instaloni bibliotekat panda dhe s3fs përmes pip:

pip install pandas s3fs

Importoni biblioteka – Filloni duke importuar bibliotekat e pandave dhe s3fs:

import pandas as pd
import s3fs

Konfiguro konfigurimin – Vendosni kredencialet tuaja të Amazon S3 ose duke i kaluar ato drejtpërdrejt në s3fs ose duke konfiguruar mjedisin tuaj me AWS_ACCESS_KEY_ID dhe AWS_SECRET_ACCESS_KEY:

fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)

Lexoni skedarin e parketit nga S3 – Përdorni panda dhe s3fs për të lexuar skedarin tuaj të Parketit:

file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

Pas ekzekutimit të këtyre hapave, duhet të keni lexuar me sukses skedarin tuaj Parquet nga S3 dhe korniza e të dhënave 'df' tani përmban të dhënat tuaja S3 në një format tabelor.

Në këtë artikull, ne kemi parë se si të aksesojmë dhe lexojmë skedarët e Parketit nga Amazon S3 duke përdorur bibliotekën e fuqishme të pandave për manipulimin e të dhënave dhe s3fs për lidhjen pa probleme S3. Këto mjete mund të përmirësojnë shumë rrjedhat tuaja të punës për përpunimin e të dhënave dhe ju lejojnë të përqendroheni në nxjerrjen e njohurive dhe të kuptuarit e tendencave më të fundit në botën e modës. Nga eksplorimi i kombinimeve të ndryshme të stileve deri te analizimi i historisë dhe evolucionit të tendencave të veshjeve, pandat e bëjnë të thjeshtë zbulimin e gurëve të çmuar të fshehur në të dhënat tuaja.

Zgjidhet: pandat lexojnë parket nga s3

Biblioteka e Pandave

Biblioteka S3fs

Lini një koment Cancel përgjigje