Išspręsta: pandos skaitė parketą iš s3

Šiuolaikiniame mados pasaulyje dirbti su dideliais duomenų rinkiniais yra gana įprasta, o pandos yra populiari Python biblioteka, teikianti galingus, lengvai naudojamus duomenų tvarkymo įrankius. Tarp daugybės duomenų formatų įvairovės „Parquet“ yra plačiai naudojamas dėl efektyvaus stulpelių saugojimo ir lengvos sintaksės. „Amazon S3“ yra populiari jūsų failų saugojimo parinktis, o ją integravus su pandomis galite žymiai pagerinti jūsų darbo eigą. Šiame straipsnyje mes išnagrinėsime, kaip skaityti „Parquet“ failus iš „Amazon S3“, naudojant galingą pandų biblioteką.

Norėdami išspręsti „Parquet“ failų skaitymo iš S3 problemą, turite suprasti pagrindinius susijusius komponentus ir bibliotekas. Dvi pagrindinės bibliotekos, kurias naudosime, yra pandos ir s3fs. „Pandas“ tvarkys duomenis, o „s3fs“ užtikrins ryšį su „Amazon S3“.

import pandas as pd
import s3fs

Pandų biblioteka

Pandas yra atvirojo kodo biblioteka, teikianti galingus duomenų apdorojimo ir analizės įrankius „Python“. Jį plačiai naudoja duomenų mokslo bendruomenė dėl savo lankstumo ir gebėjimo dirbti su skirtingais duomenų formatais, įskaitant parketo failus. Naudodami pandas galite lengvai įkelti, analizuoti ir manipuliuoti duomenimis, kad galėtumėte greitai ištirti ir suprasti duomenų modelius ir tendencijas.

S3fs biblioteka

S3fs yra į Python failą panaši sąsaja, skirta sklandžiai pasiekti Amazon S3 objektus. Jis sujungia Boto3 ir FUSE (Filesystem in Userspace) funkcijas, todėl dirbti su S3 objektais, tarsi jie būtų vietiniai failai, yra neįtikėtinai lengva. Naudodami s3fs galite skaityti ir rašyti failus iš S3, sudaryti sąrašą ir ištrinti objektus bei atlikti kitas failų operacijas tiesiogiai naudodami Python.

Dabar, kai suprantate susijusias bibliotekas, pereikime prie nuoseklaus paaiškinimo, kaip skaityti parketo failus iš S3 naudojant pandas ir s3fs.

  1. Įdiekite pandas ir s3fs – Pirmiausia per pip turite įdiegti ir pandas, ir s3fs bibliotekas:
pip install pandas s3fs
  1. Importuoti bibliotekas - Pradėkite importuodami pandų ir s3fs bibliotekas:
import pandas as pd
import s3fs
  1. Nustatykite konfigūraciją – Nustatykite savo „Amazon S3“ kredencialus perduodami juos tiesiai į s3fs arba sukonfigūruodami aplinką naudodami AWS_ACCESS_KEY_ID ir AWS_SECRET_ACCESS_KEY:
fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)
  1. Skaityti parketo failą iš S3 - Norėdami skaityti savo parketo failą, naudokite pandas ir s3fs:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

Atlikę šiuos veiksmus, turėjote sėkmingai perskaityti parketo failą iš S3 ir duomenų rėmelis 'df' dabar yra jūsų S3 duomenys lentelės formatu.

Šiame straipsnyje matėme, kaip pasiekti ir skaityti „Parquet“ failus iš „Amazon S3“, naudojant galingą „pandas“ biblioteką duomenų apdorojimui ir „s3fs“ sklandžiam S3 ryšiui. Šie įrankiai gali labai pagerinti duomenų apdorojimo eigą ir leisti sutelkti dėmesį į įžvalgų gavimą ir naujausių mados pasaulio tendencijų suvokimą. Nuo įvairių stilių derinių tyrinėjimo iki drabužių tendencijų istorijos ir evoliucijos analizės, pandos leidžia lengvai atskleisti paslėptus jūsų duomenų brangakmenius.

Susijusios naujienos:

Palikite komentarą