Vyřešeno: pandy čtou parkety z s3 v Pandas

V dnešním světě řízeném módou je práce s velkými datovými sadami zcela běžná a pandas je oblíbená knihovna v Pythonu, která poskytuje výkonné a snadno použitelné nástroje pro manipulaci s daty. Mezi širokou škálou datových formátů je Parquet široce používán pro své efektivní sloupcové úložiště a lehkou syntaxi. Amazon S3 je oblíbenou možností úložiště pro vaše soubory a jeho integrace s pandami může výrazně zlepšit váš pracovní postup. V tomto článku prozkoumáme, jak číst soubory Parquet z Amazon S3 pomocí výkonné knihovny pandas.

Chcete-li vyřešit problém čtení souborů Parquet z S3, musíte porozumět klíčovým komponentám a zahrnutým knihovnám. Dvě hlavní knihovny, které budeme používat, jsou pandy a s3fs. Pandy se postarají o zpracování dat, zatímco s3fs zajistí konektivitu k Amazon S3.

import pandas as pd
import s3fs

Knihovna pand

Pandy je open-source knihovna, která poskytuje výkonné nástroje pro manipulaci a analýzu dat v Pythonu. Je široce používán komunitou datové vědy díky své flexibilitě a schopnosti pracovat s různými datovými formáty, včetně souborů Parquet. S pandami můžete snadno načítat, analyzovat a manipulovat s daty, což vám umožní rychle prozkoumat a pochopit vzorce a trendy ve vašich datech.

Knihovna S3fs

S3fs je rozhraní podobné souborům Pythonu pro bezproblémový přístup k objektům Amazon S3. Kombinuje funkčnost Boto3 a FUSE (Filesystem in Userspace), takže je neuvěřitelně snadné pracovat s objekty S3, jako by to byly místní soubory. Prostřednictvím s3fs můžete číst a zapisovat soubory z S3, vypisovat a mazat objekty a provádět další operace se soubory přímo s Pythonem.

Nyní, když rozumíte zahrnutým knihovnám, projdeme si krok za krokem vysvětlení čtení souborů Parquet z S3 pomocí pandas a s3fs.

Nainstalujte pandy a s3fs – Nejprve musíte nainstalovat knihovny pandy i s3fs prostřednictvím pip:

pip install pandas s3fs

Import knihoven – Začněte importem knihoven pand i s3fs:

import pandas as pd
import s3fs

Nastavte konfiguraci – Nastavte své přihlašovací údaje Amazon S3 tak, že je předáte přímo do s3fs, nebo nakonfigurujete své prostředí pomocí AWS_ACCESS_KEY_ID a AWS_SECRET_ACCESS_KEY:

fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)

Přečtěte si soubor Parket z S3 – Použijte pandy a s3fs ke čtení vašeho Parquet souboru:

file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

Po provedení těchto kroků byste měli úspěšně přečíst svůj soubor Parquet z S3 a datový rámec 'df' nyní obsahuje vaše data S3 v tabulkovém formátu.

V tomto článku jsme viděli, jak přistupovat a číst soubory Parquet z Amazon S3 pomocí výkonné knihovny pandas pro manipulaci s daty a s3fs pro bezproblémové připojení S3. Tyto nástroje mohou výrazně zlepšit vaše pracovní postupy zpracování dat a umožní vám soustředit se na získávání poznatků a pochopení nejnovějších trendů ve světě módy. Od prozkoumávání různých kombinací stylů až po analýzu historie a vývoje trendů v oblečení, pandy zjednodušují odhalování skrytých drahokamů ve vašich datech.

Knihovna pand

Knihovna S3fs

Zanechat komentář Zrušit odpověď