डेटा विश्लेषण की दुनिया में, बड़े डेटासेट को संभालना एक कठिन काम हो सकता है। प्रासंगिक जानकारी प्राप्त करने के लिए डेटा को फ़िल्टर करना इस प्रक्रिया के आवश्यक भागों में से एक है। जब यह शक्तिशाली पुस्तकालय पायथन की बात आती है पांडा हमारी सहायता के लिए आता है। इस लेख में, हम चर्चा करेंगे कैसे एक पांडा DataFrame में सभी स्तंभों को फ़िल्टर करने के लिए. हम कोड की चरण-दर-चरण व्याख्या से गुजरेंगे और पुस्तकालयों और कार्यों की गहरी समझ प्रदान करेंगे जिनका उपयोग समान समस्याओं के लिए किया जा सकता है।
पेश है पांडा
एक ओपन-सोर्स लाइब्रेरी है जो पायथन प्रोग्रामिंग भाषा के लिए उपयोग में आसान डेटा संरचना और डेटा विश्लेषण उपकरण प्रदान करती है। यह डेटा साइंस इकोसिस्टम में एक महत्वपूर्ण भूमिका निभाता है और पायथन के साथ काम करने वाले किसी भी डेटा वैज्ञानिक या विश्लेषक के लिए एक अनिवार्य उपकरण बन गया है। इसकी विशेषताओं में, पांडा दो प्राथमिक डेटा संरचनाएँ प्रदान करते हैं: डेटा ढांचा और कई. एक DataFrame लेबल वाली कुल्हाड़ियों (पंक्तियों और स्तंभों) के साथ एक द्वि-आयामी तालिका है, जबकि एक श्रृंखला एक-आयामी लेबल वाली सरणी है।
इस लेख के लिए, हम पांडा डेटाफ़्रेम के किसी भी कॉलम में मौजूद विशिष्ट मानों को फ़िल्टर करने पर ध्यान केंद्रित करेंगे। ऐसा करने के लिए, हम पांडा का प्रयोग करेंगे ।में है() बूलियन मास्किंग के साथ कार्य करें।
डेटाफ़्रेम को फ़िल्टर करना
पांडा में डेटाफ़्रेम को फ़िल्टर करने के लिए, इन चरणों का पालन करें:
1. पांडा पुस्तकालय आयात करें
2. एक डेटाफ़्रेम बनाएँ या इसे किसी फ़ाइल से लोड करें
3. उन मानों को परिभाषित करें जिन्हें आप फ़िल्टर करना चाहते हैं
4. `.isin()` फ़ंक्शन और बूलियन मास्किंग का उपयोग करके फ़िल्टर लागू करें
5. फ़िल्टर किए गए डेटाफ़्रेम को प्रदर्शित करें
यह कैसे काम करता है यह समझने के लिए आइए कोड में गोता लगाएँ।
import pandas as pd # Creating a DataFrame data = {'Column1': [1, 2, 3, 4, 5], 'Column2': [10, 20, 30, 40, 50], 'Column3': ['A', 'B', 'A', 'B', 'A']} df = pd.DataFrame(data) # Define the values to filter filter_values = [1, 3, 5, 'A'] # Apply the filter using .isin() and boolean masking filtered_df = df[df.isin(filter_values).any(axis=1)] # Display the filtered DataFrame print(filtered_df)
इस उदाहरण में, हम पहले पांडा लाइब्रेरी को इम्पोर्ट करते हैं और तीन कॉलम के साथ एक डेटाफ़्रेम बनाते हैं। हम उन मानों को परिभाषित करते हैं जिन्हें हम फ़िल्टर करना चाहते हैं (1, 3, 5, और 'ए') और बूलियन मास्किंग के साथ मिलकर `.isin()` फ़ंक्शन का उपयोग करके फ़िल्टर लागू करते हैं। `कोई भी (अक्ष = 1)` फ़ंक्शन जाँचता है कि क्या पंक्ति के भीतर कोई मान फ़िल्टरिंग मानदंड को पूरा करता है। अंत में, हम फ़िल्टर किए गए डेटाफ़्रेम को प्रिंट करते हैं।
.isin() फ़ंक्शन और बूलियन मास्किंग
RSI ।में है() पांडा में फ़ंक्शन सूची या मूल्यों के सेट के आधार पर डेटा को फ़िल्टर करने के लिए एक बहुमुखी उपकरण है। यह मूल आकार के समान आकार का बूलियन डेटाफ़्रेम लौटाता है, यह दर्शाता है कि प्रदान की गई सूची या सेट में कौन से तत्व मौजूद हैं। हमारे मामले में, हम उन मानों की एक सूची पास करते हैं जिन्हें हम फ़िल्टर करना चाहते हैं।
बूलियन मास्किंग डेटा के तत्व-वार फ़िल्टरिंग के लिए पांडा में उपयोग की जाने वाली तकनीक है। इसमें अपने तत्वों को फ़िल्टर करने के लिए डेटा संरचना में बूलियन मास्क (सही और गलत मानों की एक सरणी) लागू करना शामिल है। हमारी समस्या के संदर्भ में, वांछित मान वाली पंक्तियों को पुनः प्राप्त करने के लिए हम .isin() फ़ंक्शन के साथ बूलियन मास्किंग का उपयोग करते हैं।
पांडा पुस्तकालय, डेटाफ़्रेम संरचनाओं और .isin () फ़ंक्शन की स्पष्ट समझ के साथ, हम प्रभावी रूप से किसी भी पांडा डेटाफ़्रेम को फ़िल्टर कर सकते हैं। ये तकनीकें हमें बड़े डेटासेट का पता लगाने और मूल्यवान अंतर्दृष्टि को आसानी से निकालने की अनुमति देती हैं, जिससे पांडा को पायथन में डेटा विश्लेषण के लिए एक लाइब्रेरी बना दिया जाता है।