Vyriešené: pandy čítali parkety z s3

V dnešnom módnom svete je práca s veľkými súbormi údajov celkom bežná a pandas je populárna knižnica v Pythone, ktorá poskytuje výkonné a ľahko použiteľné nástroje na manipuláciu s údajmi. Spomedzi veľkého množstva dátových formátov je Parquet široko používaný pre svoje efektívne stĺpcové ukladanie a ľahkú syntax. Amazon S3 je populárna možnosť ukladania vašich súborov a jeho integrácia s pandami môže výrazne zlepšiť váš pracovný tok. V tomto článku preskúmame, ako čítať súbory Parquet z Amazon S3 pomocou výkonnej knižnice pandy.

Ak chcete vyriešiť problém s čítaním súborov Parquet z S3, musíte porozumieť kľúčovým komponentom a zahrnutým knižniciam. Dve hlavné knižnice, ktoré budeme používať, sú pandy a s3fs. Pandas sa postará o spracovanie údajov, zatiaľ čo s3fs poskytne konektivitu k Amazon S3.

import pandas as pd
import s3fs

Pandas Library

pandy je knižnica s otvoreným zdrojovým kódom, ktorá poskytuje výkonné nástroje na manipuláciu a analýzu údajov v Pythone. Je široko používaný komunitou dátovej vedy vďaka svojej flexibilite a schopnosti pracovať s rôznymi dátovými formátmi vrátane súborov Parquet. S pandami môžete jednoducho načítať, analyzovať a manipulovať s údajmi, čo vám umožní rýchlo preskúmať a pochopiť vzory a trendy vo vašich údajoch.

Knižnica S3fs

S3fs je rozhranie podobné súborom Pythonu na bezproblémový prístup k objektom Amazon S3. Spája funkcie Boto3 a FUSE (systém súborov v užívateľskom priestore), vďaka čomu je neuveriteľne jednoduché pracovať s objektmi S3, ako keby to boli lokálne súbory. Prostredníctvom s3fs môžete čítať a zapisovať súbory z S3, vypisovať a mazať objekty a vykonávať ďalšie operácie so súbormi priamo s Pythonom.

Teraz, keď rozumiete zahrnutým knižniciam, prejdeme si krok za krokom vysvetlenie čítania súborov Parquet z S3 pomocou pandas a s3fs.

  1. Nainštalujte pandy a s3fs – Najprv musíte nainštalovať knižnice pandy aj s3fs cez pip:
pip install pandas s3fs
  1. Importujte knižnice – Začnite importovaním knižníc pandy aj s3fs:
import pandas as pd
import s3fs
  1. Nastavte konfiguráciu – Nastavte svoje poverenia Amazon S3 tak, že ich odošlete priamo do s3fs alebo nakonfigurujete svoje prostredie pomocou AWS_ACCESS_KEY_ID a AWS_SECRET_ACCESS_KEY:
fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)
  1. Prečítajte si súbor Parket z S3 – Použite pandy a s3fs na čítanie vášho súboru Parket:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

Po vykonaní týchto krokov by ste mali úspešne prečítať váš súbor Parquet z S3 a dátový rámec 'df' teraz obsahuje vaše údaje S3 v tabuľkovom formáte.

V tomto článku sme videli, ako pristupovať a čítať súbory Parquet z Amazon S3 pomocou výkonnej knižnice pandas na manipuláciu s údajmi a s3fs na bezproblémové pripojenie S3. Tieto nástroje môžu výrazne zlepšiť vaše pracovné postupy spracovania údajov a umožňujú vám zamerať sa na získavanie poznatkov a pochopenie najnovších trendov vo svete módy. Od skúmania rôznych kombinácií štýlov až po analýzu histórie a vývoja trendov v oblečení, pandy zjednodušujú odhaľovanie skrytých drahokamov vo vašich údajoch.

Súvisiace príspevky:

Pridať komentár