परिचय
पायथन डेटा विश्लेषण, कृत्रिम बुद्धिमत्ता और वेब विकास सहित विभिन्न क्षेत्रों में एक बहुमुखी और व्यापक रूप से इस्तेमाल की जाने वाली प्रोग्रामिंग भाषा है। पायथन में बड़े पैमाने पर डेटा को संभालने के लिए आवश्यक पुस्तकालयों में से एक है Numpy. NumPy एक शक्तिशाली एन-डायमेंशनल एरे ऑब्जेक्ट प्रदान करता है, जो हमें जटिल गणितीय कार्यों को आसानी से करने में सक्षम बनाता है। डेटा विश्लेषण में महत्वपूर्ण कार्यों में से एक है विभाजन समारोह, जिसका उपयोग आगे के विश्लेषण के लिए डेटा को छोटे भागों में विभाजित करने के लिए किया जाता है। इस लेख में, हम एक व्यावहारिक समाधान, चरण-दर-चरण स्पष्टीकरण, और संबंधित पुस्तकालयों और कार्यों पर चर्चा करके NumPy के स्प्लिट फ़ंक्शन के सिंटैक्स और उपयोग में गोता लगाएंगे।
समस्या का समाधान:
मान लीजिए कि हमारे पास एक फैशन शो से उत्पन्न डेटासेट है और विभिन्न शैलियों, प्रवृत्तियों और रंग संयोजनों का विश्लेषण करना चाहते हैं। हमारा लक्ष्य आगे के विश्लेषण के लिए इस डेटासेट को छोटे हिस्सों में विभाजित करना है। इसे प्राप्त करने के लिए, हम इसका उपयोग करेंगे NumPy स्प्लिट फंक्शन.
import numpy as np # Sample data (styles, trends, and colors) data = np.array([["Bohemian", "Oversized", "Earthy"], ["Minimalist", "Tailored", "Monochrome"], ["Classic", "Simple", "Neutrals"], ["Romantic", "Flowy", "Pastels"]]) # Split the data into 2 equal parts using NumPy split function split_data = np.split(data, 2)
कोड की चरण-दर-चरण व्याख्या:
1. हम शुरू करते हैं NumPy लाइब्रेरी आयात करना, जो हमें बड़े पैमाने के डेटा को संभालने के लिए आवश्यक कार्य प्रदान करता है।
2. हम फिर एक बनाते हैं नमूना डेटासेट विभिन्न फैशन शैलियों, प्रवृत्तियों और रंग योजनाओं के साथ। यह डेटासेट एक 2D NumPy सरणी है।
3. अंत में, का उपयोग करना NumPy स्प्लिट फंक्शन, हम डेटासेट को दो बराबर भागों में विभाजित करते हैं। 'split_data' वेरिएबल में अब दो छोटी सरणियाँ हैं, जिनमें से प्रत्येक में मूल डेटासेट का आधा हिस्सा है।
NumPy और इसके स्प्लिट फंक्शन को समझना
NumPy, न्यूमेरिक पायथन के लिए छोटा, पायथन में संख्यात्मक संचालन करने के लिए एक आवश्यक पुस्तकालय है। इसके लिए व्यापक रूप से मान्यता प्राप्त है कुशल एन-आयामी सरणी वस्तु, जो वैज्ञानिक कंप्यूटिंग और डेटा विश्लेषण के लिए एक शक्तिशाली उपकरण के रूप में कार्य करता है।
RSI न्यूमपी विभाजन एक निर्दिष्ट अक्ष के साथ एक इनपुट सरणी को कई छोटे सरणियों में विभाजित करने के लिए फ़ंक्शन का उपयोग किया जाता है। यह कार्य बड़े डेटासेट को छोटे, अधिक प्रबंधनीय भागों में तोड़ने के लिए फायदेमंद हो सकता है, जिससे डेटा के अलग-अलग हिस्सों पर विशिष्ट विश्लेषण करना आसान हो जाता है।
डेटा हेरफेर के लिए अन्य NumPy फ़ंक्शन
स्प्लिट फ़ंक्शन के अलावा, NumPy डेटा हेरफेर के लिए कई अन्य फ़ंक्शन भी प्रदान करता है, जैसे:
- नयी आकृति प्रदान करना: इस फ़ंक्शन का उपयोग अंतर्निहित डेटा को बदले बिना किसी दिए गए सरणी के आकार को बदलने के लिए किया जाता है। इसका उपयोग एक आयामी सरणी को द्वि-आयामी सरणी या इसके विपरीत में परिवर्तित करने के लिए किया जा सकता है।
- जोड़ना: इस फ़ंक्शन का उपयोग निर्दिष्ट अक्ष के साथ दो या दो से अधिक सरणियों को मर्ज करने के लिए किया जाता है। विभिन्न स्रोतों से डेटा का संयोजन करते समय यह मददगार हो सकता है।
- हस्टैक: इस फ़ंक्शन का उपयोग एकल अक्ष के साथ क्षैतिज रूप से (स्तंभ-वार) सरणियों को ढेर करने के लिए किया जाता है। यह किसी मौजूदा सरणी में कॉलम जोड़ने या एक साथ कई सरणियों को जोड़कर एक नई सरणी बनाने के लिए उपयोगी है।
- विस्टैक: Hstack के समान, इस फ़ंक्शन का उपयोग एकल अक्ष के साथ लंबवत (पंक्ति-वार) सरणियों को ढेर करने के लिए किया जाता है। मौजूदा सरणी में पंक्तियों को जोड़ने या एक दूसरे के ऊपर कई सरणियों को जोड़कर एक नई सरणी बनाने के लिए यह फायदेमंद है।
निष्कर्ष में, द NumPy स्प्लिट फंक्शन पायथन में बड़े पैमाने पर डेटा को संभालने के लिए एक आवश्यक उपकरण है। डेटासेट को छोटे टुकड़ों में विभाजित करके, हम डेटा के विशिष्ट सबसेट का कुशलतापूर्वक विश्लेषण कर सकते हैं और मूल्यवान अंतर्दृष्टि निकाल सकते हैं। इसके अलावा, NumPy में संबंधित कार्यों और पुस्तकालयों को समझने से पायथन में हमारी डेटा हेरफेर क्षमताओं को बढ़ाने में मदद मिलेगी।