No mundo orientado para a moda de hoje, lidar com grandes conjuntos de dados é bastante comum, e pandas é uma biblioteca popular em Python que fornece ferramentas de manipulação de dados poderosas e fáceis de usar. Entre a grande variedade de formatos de dados, o Parquet é amplamente utilizado por seu armazenamento colunar eficiente e sintaxe leve. O Amazon S3 é uma opção de armazenamento popular para seus arquivos, e integrá-lo com pandas pode melhorar significativamente seu fluxo de trabalho. Neste artigo, exploraremos como ler arquivos Parquet do Amazon S3 usando a poderosa biblioteca pandas.
Para resolver o problema de ler arquivos Parquet do S3, você precisa entender os principais componentes e bibliotecas envolvidos. As duas principais bibliotecas que usaremos são pandas e s3fs. O Pandas cuidará do processamento dos dados, enquanto o s3fs fornecerá a conectividade com o Amazon S3.
import pandas as pd import s3fs
Biblioteca de pandas
Pandas é uma biblioteca de código aberto que fornece poderosas ferramentas de manipulação e análise de dados em Python. É amplamente utilizado pela comunidade de ciência de dados, graças à sua flexibilidade e capacidade de trabalhar com diferentes formatos de dados, incluindo arquivos Parquet. Com os pandas, você pode carregar, analisar e manipular dados facilmente, permitindo que você explore e entenda rapidamente os padrões e tendências em seus dados.
Biblioteca S3fs
S3fs é uma interface semelhante a um arquivo Python para acessar facilmente objetos do Amazon S3. Ele combina a funcionalidade do Boto3 e do FUSE (Filesystem in Userspace), tornando incrivelmente fácil trabalhar com objetos S3 como se fossem arquivos locais. Por meio do s3fs, você pode ler e gravar arquivos do S3, listar e excluir objetos e executar outras operações de arquivo diretamente com o Python.
Agora que você entende as bibliotecas envolvidas, vamos ver a explicação passo a passo da leitura de arquivos Parquet do S3 usando pandas e s3fs.
- Instale pandas e s3fs – Primeiro, você precisa instalar as bibliotecas pandas e s3fs através do pip:
pip install pandas s3fs
- Importar bibliotecas – Comece importando as bibliotecas pandas e s3fs:
import pandas as pd import s3fs
- Configurar configuração – Configure suas credenciais do Amazon S3 passando-as diretamente para s3fs ou configurando seu ambiente com AWS_ACCESS_KEY_ID e AWS_SECRET_ACCESS_KEY:
fs = s3fs.S3FileSystem( key='your_aws_access_key_id', secret='your_aws_secret_access_key' )
- Leia o arquivo Parquet do S3 – Use pandas e s3fs para ler seu arquivo Parquet:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet' df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})
Depois de executar essas etapas, você deve ter lido com êxito o arquivo Parquet do S3 e o quadro de dados 'df' agora contém seus dados S3 em um formato tabular.
Neste artigo, vimos como acessar e ler arquivos Parquet do Amazon S3 usando a poderosa biblioteca pandas para manipulação de dados e s3fs para conectividade perfeita do S3. Essas ferramentas podem melhorar muito seus fluxos de trabalho de processamento de dados e permitir que você se concentre na extração de insights e na compreensão das últimas tendências no mundo da moda. Desde a exploração de várias combinações de estilo até a análise da história e evolução das tendências de roupas, o pandas simplifica a descoberta de joias escondidas em seus dados.