Λύθηκε: τα πάντα διάβασαν παρκέ από το s3 στο Pandas

Στον σημερινό κόσμο που βασίζεται στη μόδα, η ενασχόληση με μεγάλα σύνολα δεδομένων είναι αρκετά συνηθισμένη και τα pandas είναι μια δημοφιλής βιβλιοθήκη στην Python που παρέχει ισχυρά, εύχρηστα εργαλεία χειρισμού δεδομένων. Μεταξύ της μεγάλης ποικιλίας μορφών δεδομένων, το Parquet χρησιμοποιείται ευρέως για την αποτελεσματική αποθήκευση στη στήλη και την ελαφριά σύνταξη. Το Amazon S3 είναι μια δημοφιλής επιλογή αποθήκευσης για τα αρχεία σας και η ενσωμάτωσή του με τα πάντα μπορεί να βελτιώσει σημαντικά τη ροή εργασίας σας. Σε αυτό το άρθρο, θα εξερευνήσουμε πώς να διαβάζετε αρχεία Parquet από το Amazon S3 χρησιμοποιώντας την πανίσχυρη βιβλιοθήκη pandas.

Για να λύσετε το πρόβλημα της ανάγνωσης αρχείων Parquet από το S3, πρέπει να κατανοήσετε τα βασικά στοιχεία και τις βιβλιοθήκες που εμπλέκονται. Οι δύο κύριες βιβλιοθήκες που θα χρησιμοποιήσουμε είναι οι panda και οι s3fs. Τα Pandas θα χειριστούν την επεξεργασία των δεδομένων, ενώ το s3fs θα παρέχει τη συνδεσιμότητα στο Amazon S3.

import pandas as pd
import s3fs

Βιβλιοθήκη Pandas

Πάντα είναι μια βιβλιοθήκη ανοιχτού κώδικα που παρέχει ισχυρά εργαλεία χειρισμού και ανάλυσης δεδομένων στην Python. Χρησιμοποιείται ευρέως από την κοινότητα της επιστήμης δεδομένων, χάρη στην ευελιξία και την ικανότητά του να εργάζεται με διαφορετικές μορφές δεδομένων, συμπεριλαμβανομένων των αρχείων Parquet. Με τα panda, μπορείτε εύκολα να φορτώσετε, να αναλύσετε και να χειριστείτε δεδομένα, επιτρέποντάς σας να εξερευνήσετε και να κατανοήσετε γρήγορα τα μοτίβα και τις τάσεις στα δεδομένα σας.

Βιβλιοθήκη S3fs

S3fs είναι μια διεπαφή σαν αρχείο Python για απρόσκοπτη πρόσβαση σε αντικείμενα Amazon S3. Συνδυάζει τη λειτουργικότητα του Boto3 και του FUSE (Filesystem in Userspace), καθιστώντας απίστευτα εύκολη την εργασία με αντικείμενα S3 σαν να ήταν τοπικά αρχεία. Μέσω του s3fs, μπορείτε να διαβάσετε και να γράψετε αρχεία από το S3, να παραθέσετε και να διαγράψετε αντικείμενα και να εκτελέσετε άλλες λειτουργίες αρχείων απευθείας με την Python.

Τώρα που καταλαβαίνετε τις εμπλεκόμενες βιβλιοθήκες, ας δούμε τη βήμα προς βήμα εξήγηση της ανάγνωσης αρχείων Parquet από το S3 χρησιμοποιώντας panda και s3fs.

Εγκαταστήστε panda και s3fs – Πρώτα, πρέπει να εγκαταστήσετε τόσο τις βιβλιοθήκες panda όσο και s3fs μέσω του pip:

pip install pandas s3fs

Εισαγωγή βιβλιοθηκών – Ξεκινήστε εισάγοντας βιβλιοθήκες panda και s3fs:

import pandas as pd
import s3fs

Ρύθμιση διαμόρφωσης – Ρυθμίστε τα διαπιστευτήριά σας στο Amazon S3 είτε μεταβιβάζοντάς τα απευθείας στο s3fs είτε διαμορφώνοντας το περιβάλλον σας με AWS_ACCESS_KEY_ID και AWS_SECRET_ACCESS_KEY:

fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)

Διαβάστε το αρχείο Parquet από το S3 – Χρησιμοποιήστε panda και s3fs για να διαβάσετε το αρχείο Parquet:

file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

Αφού εκτελέσετε αυτά τα βήματα, θα πρέπει να έχετε διαβάσει με επιτυχία το αρχείο Parquet από το S3 και το πλαίσιο δεδομένων 'df' τώρα περιέχει τα δεδομένα σας S3 σε μορφή πίνακα.

Σε αυτό το άρθρο, είδαμε πώς να αποκτήσετε πρόσβαση και να διαβάσετε αρχεία Parquet από το Amazon S3 χρησιμοποιώντας την ισχυρή βιβλιοθήκη pandas για χειρισμό δεδομένων και s3fs για απρόσκοπτη συνδεσιμότητα S3. Αυτά τα εργαλεία μπορούν να βελτιώσουν σημαντικά τις ροές εργασίας επεξεργασίας δεδομένων σας και σας επιτρέπουν να εστιάσετε στην εξαγωγή πληροφοριών και στην κατανόηση των τελευταίων τάσεων στον κόσμο της μόδας. Από την εξερεύνηση διάφορων συνδυασμών στυλ μέχρι την ανάλυση της ιστορίας και της εξέλιξης των τάσεων στα ρούχα, τα panda διευκολύνουν την αποκάλυψη των κρυμμένων πολύτιμων λίθων στα δεδομένα σας.

Βιβλιοθήκη Pandas

Βιβλιοθήκη S3fs

Αφήστε ένα σχόλιο Ακύρωση απάντησης