محلول: الباندا تقرأ الباركيه من s3

في عالم اليوم الذي يحركه الموضة ، يعد التعامل مع مجموعات البيانات الكبيرة أمرًا شائعًا جدًا ، وتعد الباندا مكتبة شائعة في Python توفر أدوات معالجة بيانات قوية وسهلة الاستخدام. من بين مجموعة كبيرة ومتنوعة من تنسيقات البيانات ، يستخدم الباركيه على نطاق واسع لتخزينه العمودي الفعال وبناء الجملة خفيف الوزن. Amazon S3 هو خيار تخزين شائع لملفاتك ، ويمكن أن يؤدي دمجها مع حيوانات الباندا إلى تحسين سير عملك بشكل كبير. في هذه المقالة ، سوف نستكشف كيفية قراءة ملفات باركيه من Amazon S3 باستخدام مكتبة الباندا القوية.

لحل مشكلة قراءة ملفات باركيه من S3 ، تحتاج إلى فهم المكونات الأساسية والمكتبات المعنية. المكتبتان الرئيسيتان اللتان سنستخدمهما هما الباندا و s3fs. ستتعامل Pandas مع معالجة البيانات ، بينما ستوفر s3fs الاتصال بـ Amazon S3.

import pandas as pd
import s3fs

مكتبة الباندا

الباندا هي مكتبة مفتوحة المصدر توفر أدوات معالجة قوية للبيانات وتحليلها في Python. يتم استخدامه على نطاق واسع من قبل مجتمع علوم البيانات ، وذلك بفضل مرونته وقدرته على العمل مع تنسيقات بيانات مختلفة ، بما في ذلك ملفات باركيه. باستخدام الباندا ، يمكنك بسهولة تحميل البيانات وتحليلها ومعالجتها ، مما يتيح لك استكشاف الأنماط والاتجاهات في بياناتك وفهمها بسرعة.

مكتبة S3FS

S3FS هي واجهة تشبه ملفات Python للوصول بسهولة إلى كائنات Amazon S3. فهو يجمع بين وظائف Boto3 و FUSE (نظام الملفات في Userspace) ، مما يجعل من السهل للغاية العمل مع كائنات S3 كما لو كانت ملفات محلية. من خلال s3fs ، يمكنك قراءة الملفات وكتابتها من S3 ، وسرد العناصر وحذفها ، وتنفيذ عمليات الملفات الأخرى مباشرةً باستخدام Python.

الآن بعد أن فهمت المكتبات المعنية ، دعنا ننتقل إلى الشرح خطوة بخطوة لقراءة ملفات باركيه من S3 باستخدام الباندا و s3fs.

  1. قم بتثبيت الباندا و s3fs - أولاً ، تحتاج إلى تثبيت كل من مكتبات الباندا و s3fs من خلال النقطة:
pip install pandas s3fs
  1. مكتبات الاستيراد - ابدأ باستيراد مكتبات الباندا و s3fs:
import pandas as pd
import s3fs
  1. قم بإعداد التكوين - قم بإعداد بيانات اعتماد Amazon S3 إما عن طريق تمريرها مباشرة إلى s3fs أو تكوين بيئتك باستخدام AWS_ACCESS_KEY_ID و AWS_SECRET_ACCESS_KEY:
fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)
  1. قراءة ملف باركيه من S3 - استخدم الباندا و s3fs لقراءة ملف الباركيه الخاص بك:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

بعد تنفيذ هذه الخطوات ، يجب أن تكون قد قرأت ملف باركيه الخاص بك بنجاح من S3 و إطار البيانات "df" يحتوي الآن على بيانات S3 الخاصة بك بتنسيق جدولي.

في هذه المقالة ، رأينا كيفية الوصول إلى ملفات باركيه وقراءتها من Amazon S3 باستخدام مكتبة الباندا القوية لمعالجة البيانات و s3fs لاتصال سلس S3. يمكن لهذه الأدوات تحسين سير عمل معالجة البيانات بشكل كبير وتسمح لك بالتركيز على استخراج الأفكار وفهم أحدث الاتجاهات في عالم الموضة. من استكشاف مجموعات الأنماط المختلفة إلى تحليل تاريخ اتجاهات الملابس وتطورها ، تجعل الباندا من السهل الكشف عن الجواهر المخفية في بياناتك.

الوظائف ذات الصلة:

اترك تعليق