Lahendatud: pandad lugesid parkett s3-st

Tänapäeva moemaailmas on suurte andmekogumitega tegelemine üsna tavaline ja pandad on Pythonis populaarne raamatukogu, mis pakub võimsaid ja hõlpsasti kasutatavaid andmetöötlustööriistu. Erinevate andmevormingute hulgast kasutatakse Parquet laialdaselt selle tõhusa veergude salvestamise ja kerge süntaksi tõttu. Amazon S3 on teie failide jaoks populaarne salvestusvõimalus ja selle integreerimine pandadega võib teie töövoogu oluliselt parandada. Selles artiklis uurime, kuidas võimsa pandateegi abil lugeda Amazon S3-st Parqueti faile.

S3-st Parketi failide lugemise probleemi lahendamiseks peate mõistma seotud võtmekomponente ja teeke. Kaks peamist teeki, mida kasutame, on pandad ja s3fs. Pandas tegeleb andmete töötlemisega, samas kui s3fs tagab ühenduse Amazon S3-ga.

import pandas as pd
import s3fs

Panda raamatukogu

Pandad on avatud lähtekoodiga teek, mis pakub Pythonis võimsaid andmete töötlemise ja analüüsi tööriistu. Andmeteaduse kogukond kasutab seda laialdaselt tänu selle paindlikkusele ja võimele töötada erinevate andmevormingutega, sealhulgas parketifailidega. Pandade abil saate hõlpsasti andmeid laadida, analüüsida ja nendega manipuleerida, võimaldades teil kiiresti uurida ja mõista oma andmete mustreid ja suundumusi.

S3fs raamatukogu

S3fs on Pythoni faililaadne liides Amazon S3 objektidele sujuvaks juurdepääsuks. See ühendab Boto3 ja FUSE (failisüsteem kasutajaruumis) funktsionaalsuse, muutes S3 objektidega töötamise uskumatult lihtsaks, nagu oleksid need kohalikud failid. S3fs-i kaudu saate S3-st faile lugeda ja kirjutada, objekte loetleda ja kustutada ning muid failitoiminguid teha otse Pythoniga.

Nüüd, kui mõistate kaasatud raamatukogusid, vaatame läbi samm-sammult selgitused Parketi failide lugemise kohta S3-st, kasutades pandasid ja s3fs-e.

  1. Installige pandad ja s3fs – Esiteks peate pipi kaudu installima nii panda kui ka s3fs teegid:
pip install pandas s3fs
  1. Impordi raamatukogud - Alustage nii pandade kui ka s3fsi teekide importimisest:
import pandas as pd
import s3fs
  1. Seadistage konfiguratsioon – Seadistage oma Amazon S3 mandaadid, edastades need otse s3fs-ile või konfigureerides oma keskkonda AWS_ACCESS_KEY_ID ja AWS_SECRET_ACCESS_KEY abil:
fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)
  1. Parketi faili lugemine S3-st - Kasutage oma Parketi faili lugemiseks pandasid ja s3fsi:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

Pärast nende toimingute tegemist oleksite pidanud oma Parquet-faili S3-st edukalt lugema ja andmeraam 'df' sisaldab nüüd teie S3 andmeid tabelivormingus.

Selles artiklis oleme näinud, kuidas pääseda juurde Amazon S3 Parketi failidele ja neid lugeda, kasutades võimsat pandateeki andmete töötlemiseks ja s3fs-i sujuvaks S3-ühenduseks. Need tööriistad võivad oluliselt parandada teie andmetöötluse töövooge ja võimaldavad teil keskenduda arusaamade hankimisele ja moemaailma viimaste suundumuste mõistmisele. Alates erinevate stiilikombinatsioonide uurimisest kuni rõivatrendide ajaloo ja arengu analüüsini – pandad muudavad teie andmete peidetud pärlite paljastamise lihtsaks.

Seonduvad postitused:

Jäta kommentaar