V dnešním světě řízeném módou je práce s velkými datovými sadami zcela běžná a pandas je oblíbená knihovna v Pythonu, která poskytuje výkonné a snadno použitelné nástroje pro manipulaci s daty. Mezi širokou škálou datových formátů je Parquet široce používán pro své efektivní sloupcové úložiště a lehkou syntaxi. Amazon S3 je oblíbenou možností úložiště pro vaše soubory a jeho integrace s pandami může výrazně zlepšit váš pracovní postup. V tomto článku prozkoumáme, jak číst soubory Parquet z Amazon S3 pomocí výkonné knihovny pandas.
Chcete-li vyřešit problém čtení souborů Parquet z S3, musíte porozumět klíčovým komponentám a zahrnutým knihovnám. Dvě hlavní knihovny, které budeme používat, jsou pandy a s3fs. Pandy se postarají o zpracování dat, zatímco s3fs zajistí konektivitu k Amazon S3.
import pandas as pd import s3fs
Knihovna pand
Pandy je open-source knihovna, která poskytuje výkonné nástroje pro manipulaci a analýzu dat v Pythonu. Je široce používán komunitou datové vědy díky své flexibilitě a schopnosti pracovat s různými datovými formáty, včetně souborů Parquet. S pandami můžete snadno načítat, analyzovat a manipulovat s daty, což vám umožní rychle prozkoumat a pochopit vzorce a trendy ve vašich datech.
Knihovna S3fs
S3fs je rozhraní podobné souborům Pythonu pro bezproblémový přístup k objektům Amazon S3. Kombinuje funkčnost Boto3 a FUSE (Filesystem in Userspace), takže je neuvěřitelně snadné pracovat s objekty S3, jako by to byly místní soubory. Prostřednictvím s3fs můžete číst a zapisovat soubory z S3, vypisovat a mazat objekty a provádět další operace se soubory přímo s Pythonem.
Nyní, když rozumíte zahrnutým knihovnám, projdeme si krok za krokem vysvětlení čtení souborů Parquet z S3 pomocí pandas a s3fs.
- Nainstalujte pandy a s3fs – Nejprve musíte nainstalovat knihovny pandy i s3fs prostřednictvím pip:
pip install pandas s3fs
- Import knihoven – Začněte importem knihoven pand i s3fs:
import pandas as pd import s3fs
- Nastavte konfiguraci – Nastavte své přihlašovací údaje Amazon S3 tak, že je předáte přímo do s3fs, nebo nakonfigurujete své prostředí pomocí AWS_ACCESS_KEY_ID a AWS_SECRET_ACCESS_KEY:
fs = s3fs.S3FileSystem( key='your_aws_access_key_id', secret='your_aws_secret_access_key' )
- Přečtěte si soubor Parket z S3 – Použijte pandy a s3fs ke čtení vašeho Parquet souboru:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet' df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})
Po provedení těchto kroků byste měli úspěšně přečíst svůj soubor Parquet z S3 a datový rámec 'df' nyní obsahuje vaše data S3 v tabulkovém formátu.
V tomto článku jsme viděli, jak přistupovat a číst soubory Parquet z Amazon S3 pomocí výkonné knihovny pandas pro manipulaci s daty a s3fs pro bezproblémové připojení S3. Tyto nástroje mohou výrazně zlepšit vaše pracovní postupy zpracování dat a umožní vám soustředit se na získávání poznatků a pochopení nejnovějších trendů ve světě módy. Od prozkoumávání různých kombinací stylů až po analýzu historie a vývoje trendů v oblečení, pandy zjednodušují odhalování skrytých drahokamů ve vašich datech.