हल: पांडा में सभी कॉलम फ़िल्टर करें

डेटा विश्लेषण की दुनिया में, बड़े डेटासेट को संभालना एक कठिन काम हो सकता है। प्रासंगिक जानकारी प्राप्त करने के लिए डेटा को फ़िल्टर करना इस प्रक्रिया के आवश्यक भागों में से एक है। जब यह शक्तिशाली पुस्तकालय पायथन की बात आती है पांडा हमारी सहायता के लिए आता है। इस लेख में, हम चर्चा करेंगे कैसे एक पांडा DataFrame में सभी स्तंभों को फ़िल्टर करने के लिए. हम कोड की चरण-दर-चरण व्याख्या से गुजरेंगे और पुस्तकालयों और कार्यों की गहरी समझ प्रदान करेंगे जिनका उपयोग समान समस्याओं के लिए किया जा सकता है।

पेश है पांडा

एक ओपन-सोर्स लाइब्रेरी है जो पायथन प्रोग्रामिंग भाषा के लिए उपयोग में आसान डेटा संरचना और डेटा विश्लेषण उपकरण प्रदान करती है। यह डेटा साइंस इकोसिस्टम में एक महत्वपूर्ण भूमिका निभाता है और पायथन के साथ काम करने वाले किसी भी डेटा वैज्ञानिक या विश्लेषक के लिए एक अनिवार्य उपकरण बन गया है। इसकी विशेषताओं में, पांडा दो प्राथमिक डेटा संरचनाएँ प्रदान करते हैं: डेटा ढांचा और कई. एक DataFrame लेबल वाली कुल्हाड़ियों (पंक्तियों और स्तंभों) के साथ एक द्वि-आयामी तालिका है, जबकि एक श्रृंखला एक-आयामी लेबल वाली सरणी है।

इस लेख के लिए, हम पांडा डेटाफ़्रेम के किसी भी कॉलम में मौजूद विशिष्ट मानों को फ़िल्टर करने पर ध्यान केंद्रित करेंगे। ऐसा करने के लिए, हम पांडा का प्रयोग करेंगे ।में है() बूलियन मास्किंग के साथ कार्य करें।

डेटाफ़्रेम को फ़िल्टर करना

पांडा में डेटाफ़्रेम को फ़िल्टर करने के लिए, इन चरणों का पालन करें:

1. पांडा पुस्तकालय आयात करें
2. एक डेटाफ़्रेम बनाएँ या इसे किसी फ़ाइल से लोड करें
3. उन मानों को परिभाषित करें जिन्हें आप फ़िल्टर करना चाहते हैं
4. `.isin()` फ़ंक्शन और बूलियन मास्किंग का उपयोग करके फ़िल्टर लागू करें
5. फ़िल्टर किए गए डेटाफ़्रेम को प्रदर्शित करें

यह कैसे काम करता है यह समझने के लिए आइए कोड में गोता लगाएँ।

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

इस उदाहरण में, हम पहले पांडा लाइब्रेरी को इम्पोर्ट करते हैं और तीन कॉलम के साथ एक डेटाफ़्रेम बनाते हैं। हम उन मानों को परिभाषित करते हैं जिन्हें हम फ़िल्टर करना चाहते हैं (1, 3, 5, और 'ए') और बूलियन मास्किंग के साथ मिलकर `.isin()` फ़ंक्शन का उपयोग करके फ़िल्टर लागू करते हैं। `कोई भी (अक्ष = 1)` फ़ंक्शन जाँचता है कि क्या पंक्ति के भीतर कोई मान फ़िल्टरिंग मानदंड को पूरा करता है। अंत में, हम फ़िल्टर किए गए डेटाफ़्रेम को प्रिंट करते हैं।

.isin() फ़ंक्शन और बूलियन मास्किंग

RSI ।में है() पांडा में फ़ंक्शन सूची या मूल्यों के सेट के आधार पर डेटा को फ़िल्टर करने के लिए एक बहुमुखी उपकरण है। यह मूल आकार के समान आकार का बूलियन डेटाफ़्रेम लौटाता है, यह दर्शाता है कि प्रदान की गई सूची या सेट में कौन से तत्व मौजूद हैं। हमारे मामले में, हम उन मानों की एक सूची पास करते हैं जिन्हें हम फ़िल्टर करना चाहते हैं।

बूलियन मास्किंग डेटा के तत्व-वार फ़िल्टरिंग के लिए पांडा में उपयोग की जाने वाली तकनीक है। इसमें अपने तत्वों को फ़िल्टर करने के लिए डेटा संरचना में बूलियन मास्क (सही और गलत मानों की एक सरणी) लागू करना शामिल है। हमारी समस्या के संदर्भ में, वांछित मान वाली पंक्तियों को पुनः प्राप्त करने के लिए हम .isin() फ़ंक्शन के साथ बूलियन मास्किंग का उपयोग करते हैं।

पांडा पुस्तकालय, डेटाफ़्रेम संरचनाओं और .isin () फ़ंक्शन की स्पष्ट समझ के साथ, हम प्रभावी रूप से किसी भी पांडा डेटाफ़्रेम को फ़िल्टर कर सकते हैं। ये तकनीकें हमें बड़े डेटासेट का पता लगाने और मूल्यवान अंतर्दृष्टि को आसानी से निकालने की अनुमति देती हैं, जिससे पांडा को पायथन में डेटा विश्लेषण के लिए एक लाइब्रेरी बना दिया जाता है।

संबंधित पोस्ट:

एक टिप्पणी छोड़ दो