Đã giải quyết: gấu trúc đọc sàn gỗ từ s3 trong Pandas

Trong thế giới thời trang ngày nay, việc xử lý các tập dữ liệu lớn khá phổ biến và pandas là một thư viện phổ biến trong Python cung cấp các công cụ thao tác dữ liệu mạnh mẽ, dễ sử dụng. Trong số rất nhiều định dạng dữ liệu, Parquet được sử dụng rộng rãi để lưu trữ cột hiệu quả và cú pháp nhẹ. Amazon S3 là một tùy chọn lưu trữ phổ biến cho các tệp của bạn và việc tích hợp nó với gấu trúc có thể cải thiện đáng kể quy trình làm việc của bạn. Trong bài viết này, chúng ta sẽ khám phá cách đọc tệp Parquet từ Amazon S3 bằng thư viện pandas mạnh mẽ.

Để giải quyết vấn đề đọc tệp Parquet từ S3, bạn cần hiểu các thành phần chính và thư viện liên quan. Hai thư viện chính chúng ta sẽ sử dụng là pandas và s3fs. Pandas sẽ xử lý dữ liệu, trong khi s3fs sẽ cung cấp kết nối với Amazon S3.

import pandas as pd
import s3fs

Thư viện gấu trúc

Gấu trúc là một thư viện mã nguồn mở cung cấp các công cụ phân tích và thao tác dữ liệu mạnh mẽ bằng Python. Nó được cộng đồng khoa học dữ liệu sử dụng rộng rãi nhờ tính linh hoạt và khả năng làm việc với các định dạng dữ liệu khác nhau, bao gồm cả tệp Parquet. Với gấu trúc, bạn có thể dễ dàng tải, phân tích và thao tác dữ liệu, cho phép bạn nhanh chóng khám phá và hiểu các mẫu cũng như xu hướng trong dữ liệu của mình.

Thư viện S3fs

S3fs là một giao diện giống như tệp Python để truy cập liền mạch các đối tượng Amazon S3. Nó kết hợp chức năng của Boto3 và FUSE (Hệ thống tệp trong không gian người dùng), giúp làm việc với các đối tượng S3 cực kỳ dễ dàng như thể chúng là các tệp cục bộ. Thông qua s3fs, bạn có thể đọc và ghi các tệp từ S3, liệt kê và xóa các đối tượng cũng như thực hiện các thao tác tệp khác trực tiếp bằng Python.

Bây giờ bạn đã hiểu các thư viện liên quan, hãy xem qua phần giải thích từng bước về cách đọc các tệp Parquet từ S3 bằng pandas và s3fs.

Cài đặt gấu trúc và s3fs – Trước tiên, bạn cần cài đặt cả thư viện pandas và s3fs thông qua pip:

pip install pandas s3fs

Nhập thư viện – Bắt đầu bằng cách nhập cả thư viện pandas và s3fs:

import pandas as pd
import s3fs

Thiết lập cấu hình – Thiết lập thông tin xác thực Amazon S3 của bạn bằng cách chuyển chúng trực tiếp tới s3fs hoặc định cấu hình môi trường của bạn bằng AWS_ACCESS_KEY_ID và AWS_SECRET_ACCESS_KEY:

fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)

Đọc tệp Parquet từ S3 – Sử dụng pandas và s3fs để đọc tệp Parquet của bạn:

file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

Sau khi thực hiện các bước này, bạn sẽ đọc thành công tệp Parquet của mình từ S3 và khung dữ liệu 'df' hiện chứa dữ liệu S3 của bạn ở định dạng bảng.

Trong bài viết này, chúng ta đã biết cách truy cập và đọc các tệp Parquet từ Amazon S3 bằng cách sử dụng thư viện pandas mạnh mẽ để thao tác dữ liệu và s3fs để kết nối S3 liền mạch. Những công cụ này có thể cải thiện đáng kể quy trình xử lý dữ liệu của bạn và cho phép bạn tập trung vào việc trích xuất thông tin chi tiết cũng như hiểu các xu hướng mới nhất trong thế giới thời trang. Từ việc khám phá các cách kết hợp phong cách khác nhau đến phân tích lịch sử và sự phát triển của các xu hướng quần áo, pandas giúp việc khám phá những viên ngọc ẩn trong dữ liệu của bạn trở nên đơn giản.

Thư viện gấu trúc

Thư viện S3fs

Để lại một bình luận Hủy bỏ trả lời