हल किया गया: पांडा S3 से लकड़ी की छत पढ़ते हैं

आज की फैशन-संचालित दुनिया में, बड़े डेटा सेट से निपटना काफी आम है, और पांडा पायथन में एक लोकप्रिय पुस्तकालय है जो शक्तिशाली, उपयोग में आसान डेटा हेरफेर उपकरण प्रदान करता है। डेटा स्वरूपों की महान विविधता के बीच, Parquet का व्यापक रूप से इसके कुशल स्तंभ भंडारण और हल्के सिंटैक्स के लिए उपयोग किया जाता है। अमेज़ॅन एस 3 आपकी फाइलों के लिए एक लोकप्रिय भंडारण विकल्प है, और इसे पांडा के साथ एकीकृत करने से आपके वर्कफ़्लो में काफी सुधार हो सकता है। इस लेख में, हम यह पता लगाएंगे कि शक्तिशाली पांडा लाइब्रेरी का उपयोग करके Amazon S3 से Parquet फ़ाइलों को कैसे पढ़ा जाए।

S3 से Parquet फ़ाइलों को पढ़ने की समस्या को हल करने के लिए, आपको इसमें शामिल प्रमुख घटकों और पुस्तकालयों को समझने की आवश्यकता है। हम जिन दो मुख्य पुस्तकालयों का उपयोग करेंगे वे हैं पांडा और s3fs। पांडा डेटा के प्रसंस्करण को संभालेंगे, जबकि s3fs Amazon S3 को कनेक्टिविटी प्रदान करेगा।

import pandas as pd
import s3fs

पंडों की लाइब्रेरी

पांडा एक ओपन-सोर्स लाइब्रेरी है जो पायथन में शक्तिशाली डेटा हेरफेर और विश्लेषण उपकरण प्रदान करती है। यह डेटा विज्ञान समुदाय द्वारा व्यापक रूप से उपयोग किया जाता है, इसके लचीलेपन और Parquet फ़ाइलों सहित विभिन्न डेटा स्वरूपों के साथ काम करने की क्षमता के लिए धन्यवाद। पांडा के साथ, आप डेटा को आसानी से लोड, विश्लेषण और हेरफेर कर सकते हैं, जिससे आप अपने डेटा में पैटर्न और रुझानों को जल्दी से एक्सप्लोर कर सकते हैं और समझ सकते हैं।

S3fs लाइब्रेरी

S3fs Amazon S3 ऑब्जेक्ट्स को मूल रूप से एक्सेस करने के लिए एक पायथन फ़ाइल जैसा इंटरफ़ेस है। यह Boto3 और FUSE (फाइलसिस्टम इन यूजरस्पेस) की कार्यक्षमता को जोड़ती है, जिससे S3 ऑब्जेक्ट्स के साथ काम करना अविश्वसनीय रूप से आसान हो जाता है जैसे कि वे स्थानीय फाइलें हों। S3fs के माध्यम से, आप S3 से फ़ाइलों को पढ़ और लिख सकते हैं, वस्तुओं को सूचीबद्ध कर सकते हैं और हटा सकते हैं, और सीधे Python के साथ अन्य फ़ाइल संचालन कर सकते हैं।

अब जब आप इसमें शामिल पुस्तकालयों को समझ गए हैं, तो आइए पांडा और s3fs का उपयोग करके S3 से Parquet फ़ाइलों को पढ़ने की चरण-दर-चरण व्याख्या करें।

  1. पांडा और s3fs स्थापित करें - सबसे पहले, आपको पाइप के माध्यम से पांडा और s3fs लाइब्रेरी दोनों को स्थापित करने की आवश्यकता है:
pip install pandas s3fs
  1. पुस्तकालय आयात करें - पांडा और s3fs दोनों पुस्तकालयों को आयात करके प्रारंभ करें:
import pandas as pd
import s3fs
  1. कॉन्फ़िगरेशन सेट करें - अपने Amazon S3 क्रेडेंशियल्स को सीधे s3fs में पास करके या AWS_ACCESS_KEY_ID और AWS_SECRET_ACCESS_KEY के साथ अपने वातावरण को कॉन्फ़िगर करके सेट करें:
fs = s3fs.S3FileSystem(
  key='your_aws_access_key_id',
  secret='your_aws_secret_access_key'
)
  1. S3 से Parquet फ़ाइल पढ़ें - अपनी Parquet फ़ाइल को पढ़ने के लिए पांडा और s3fs का उपयोग करें:
file_path = 's3://your_bucket/path/to/your/parquet/file.parquet'
df = pd.read_parquet(file_path, storage_options={"s3": {"anon": False}})

इन चरणों को निष्पादित करने के बाद, आपको S3 से अपनी Parquet फ़ाइल को सफलतापूर्वक पढ़ना चाहिए, और डेटाफ्रेम 'डीएफ' अब आपके S3 डेटा को सारणीबद्ध प्रारूप में शामिल करता है।

इस लेख में, हमने देखा है कि डेटा हेरफेर के लिए शक्तिशाली पांडा लाइब्रेरी और सहज S3 कनेक्टिविटी के लिए s3fs का उपयोग करके Amazon S3 से Parquet फ़ाइलों को कैसे एक्सेस और पढ़ा जाए। ये टूल आपके डेटा प्रोसेसिंग वर्कफ़्लोज़ में काफी सुधार कर सकते हैं और आपको अंतर्दृष्टि निकालने और फैशन की दुनिया में नवीनतम रुझानों को समझने पर ध्यान केंद्रित करने की अनुमति देते हैं। कपड़ों के इतिहास और विकास के विकास का विश्लेषण करने के लिए विभिन्न शैली संयोजनों की खोज से, पांडा आपके डेटा में छिपे हुए रत्नों को उजागर करना आसान बनाता है।

संबंधित पोस्ट:

एक टिप्पणी छोड़ दो