Megoldva: a pandák s3-ból parkettát olvastak a Pandákban

A mai divatvezérelt világban meglehetősen gyakori a nagy adatkészletek kezelése, és a pandák a Python egyik népszerű könyvtára, amely hatékony, könnyen használható adatkezelési eszközöket biztosít. A sokféle adatformátum közül a Parquet széles körben használatos a hatékony oszlopos tárolás és a könnyű szintaxis miatt. Az Amazon S3 népszerű tárolási lehetőség a fájlok számára, és a pandákkal való integrálása jelentősen javíthatja a munkafolyamatot. Ebben a cikkben megvizsgáljuk, hogyan lehet olvasni az Amazon S3 Parquet fájljait a hatékony pandakönyvtár segítségével.

Az S3-ból a Parquet fájlok olvasásának problémájának megoldásához meg kell értenie az érintett kulcsfontosságú összetevőket és könyvtárakat. A két fő könyvtár, amelyet használni fogunk, a pandák és az s3fs. A Pandák kezelik az adatok feldolgozását, míg az s3fs biztosítja a kapcsolatot az Amazon S3-hoz.

import pandas as pd
import s3fs

Pandas Könyvtár

pandák egy nyílt forráskódú könyvtár, amely hatékony adatkezelési és -elemző eszközöket biztosít a Pythonban. Az adattudományi közösség széles körben használja, köszönhetően a rugalmasságának és a különböző adatformátumokkal való munkavégzés képességének, beleértve a parketta fájlokat is. A pandákkal könnyedén betöltheti, elemezheti és kezelheti az adatokat, így gyorsan felfedezheti és megértheti az adatok mintáit és trendjeit.

S3fs könyvtár

S3fs egy Python fájlszerű felület az Amazon S3 objektumok zökkenőmentes eléréséhez. Egyesíti a Boto3 és a FUSE (Filesystem in Userspace) funkcióit, így hihetetlenül egyszerűvé teszi az S3 objektumokkal való munkát, mintha azok helyi fájlok lennének. Az s3fs-en keresztül fájlokat olvashat és írhat az S3-ból, listázhat és törölhet objektumokat, valamint egyéb fájlműveleteket hajthat végre közvetlenül a Python segítségével.

Most, hogy megértette az érintett könyvtárakat, nézzük meg a Parquet fájlok S3-ból pandák és s3fs használatával történő olvasásának lépésről lépésre történő magyarázatát.

Telepítse a pandákat és az s3fs-eket – Először is telepítenie kell a pandas és az s3fs könyvtárakat a pip segítségével:

pip install pandas s3fs

Könyvtárak importálása – Kezdje a panda és az s3fs könyvtárak importálásával:

import pandas as pd
import s3fs

Állítsa be a konfigurációt – Állítsa be Amazon S3 hitelesítő adatait közvetlenül az s3fs-nek való átadással, vagy a környezet konfigurálásával az AWS_ACCESS_KEY_ID és AWS_SECRET_ACCESS_KEY segítségével:

fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)

Olvassa el a parketta fájlt az S3-ból – Használjon pandákat és s3fs-t a Parquet fájl olvasásához:

file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

A lépések végrehajtása után sikeresen be kellett olvasnia a Parquet fájlt az S3-ból, és a adatkeret 'df' most táblázatos formában tartalmazza az S3 adatait.

Ebben a cikkben megtudtuk, hogyan lehet elérni és olvasni az Amazon S3 Parquet fájljait a hatékony pandas könyvtár segítségével az adatkezeléshez és az s3fs segítségével a zökkenőmentes S3-kapcsolathoz. Ezek az eszközök nagymértékben javíthatják az adatfeldolgozási munkafolyamatokat, és lehetővé teszik, hogy a betekintések kinyerésére és a divatvilág legújabb trendjeinek megértésére összpontosítson. A különböző stíluskombinációk felfedezésétől a ruházati trendek történetének és fejlődésének elemzéséig a pandák egyszerűen felfedik az adatok rejtett gyöngyszemeit.

Pandas Könyvtár

S3fs könyvtár

Írj hozzászólást Mégsem válaszát