सोडवले: पांडामधील सर्व स्तंभ फिल्टर करा

डेटा विश्लेषणाच्या जगात, मोठ्या डेटासेट हाताळणे एक कठीण काम असू शकते. या प्रक्रियेतील एक आवश्यक भाग म्हणजे संबंधित माहिती मिळविण्यासाठी डेटा फिल्टर करणे. जेव्हा पायथन, शक्तिशाली लायब्ररी येतो पांडा आमच्या मदतीला येतो. या लेखात, आम्ही चर्चा करू पांडा डेटाफ्रेममधील सर्व स्तंभ कसे फिल्टर करावे. आम्ही कोडचे चरण-दर-चरण स्पष्टीकरण देऊ आणि लायब्ररी आणि फंक्शन्सची सखोल माहिती देऊ ज्या समान समस्यांसाठी वापरल्या जाऊ शकतात.

पांडाचा परिचय

ही एक मुक्त-स्रोत लायब्ररी आहे जी पायथन प्रोग्रामिंग भाषेसाठी वापरण्यास सुलभ डेटा संरचना आणि डेटा विश्लेषण साधने प्रदान करते. डेटा सायन्स इकोसिस्टममध्ये हे महत्त्वपूर्ण भूमिका बजावते आणि पायथनसोबत काम करणार्‍या कोणत्याही डेटा सायंटिस्ट किंवा विश्लेषकासाठी ते एक आवश्यक साधन बनले आहे. त्याच्या वैशिष्ट्यांपैकी, पांडा दोन प्राथमिक डेटा संरचना देतात: डेटाफ्रेम आणि मालिका. डेटाफ्रेम हे लेबल केलेले अक्ष (पंक्ती आणि स्तंभ) असलेली द्विमितीय सारणी असते, तर मालिका ही एक-आयामी लेबल केलेली अॅरे असते.

या लेखासाठी, आम्ही पांडा डेटाफ्रेमच्या कोणत्याही स्तंभामध्ये उपस्थित असलेल्या विशिष्ट मूल्यांना फिल्टर करण्यावर लक्ष केंद्रित करू. हे करण्यासाठी, आम्ही पांडा वापरू .आहे() बुलियन मास्किंगसह कार्य.

डेटाफ्रेम फिल्टर करणे

पांडामध्ये डेटाफ्रेम फिल्टर करण्यासाठी, या चरणांचे अनुसरण करा:

1. पांडा लायब्ररी आयात करा
2. डेटाफ्रेम तयार करा किंवा फाइलमधून लोड करा
3. तुम्ही फिल्टर करू इच्छित मूल्ये परिभाषित करा
4. `.isin()` फंक्शन आणि बुलियन मास्किंग वापरून फिल्टर लागू करा
5. फिल्टर केलेला डेटाफ्रेम प्रदर्शित करा

ते कसे कार्य करते हे समजून घेण्यासाठी कोडमध्ये जाऊ या.

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

या उदाहरणात, आम्ही प्रथम पांडा लायब्ररी आयात करतो आणि तीन स्तंभांसह डेटाफ्रेम तयार करतो. आम्ही फिल्टर करू इच्छित मूल्ये (1, 3, 5, आणि 'A') परिभाषित करतो आणि बुलियन मास्किंगसह एकत्रित `.isin()` फंक्शन वापरून फिल्टर लागू करतो. `any(axis=1)` फंक्शन एका ओळीतील कोणतेही मूल्य फिल्टरिंग निकष पूर्ण करते का ते तपासते. शेवटी, आम्ही फिल्टर केलेला डेटाफ्रेम मुद्रित करतो.

.isin() फंक्शन आणि बुलियन मास्किंग

अगोदर निर्देश केलेल्या बाबीसंबंधी बोलताना .आहे() फंक्शन इन पांडा हे सूची किंवा मूल्यांच्या सेटवर आधारित डेटा फिल्टर करण्यासाठी एक बहुमुखी साधन आहे. प्रदान केलेल्या सूचीमध्ये किंवा सेटमध्ये कोणते घटक उपस्थित आहेत हे दर्शविते की, मूळ सारख्याच आकाराचा बुलियन डेटाफ्रेम मिळवते. आमच्या बाबतीत, आम्ही फिल्टर करू इच्छित असलेल्या मूल्यांची यादी पास करतो.

बुलियन मास्किंग हे एक तंत्र आहे जे पांडांमध्ये डेटाच्या घटकानुसार फिल्टरिंगसाठी वापरले जाते. त्यात बुलियन मास्क (सत्य आणि असत्य मूल्यांचा अॅरे) डेटा स्ट्रक्चरला त्याचे घटक फिल्टर करण्यासाठी लागू करणे समाविष्ट आहे. आमच्या समस्येच्या संदर्भात, आम्ही इच्छित मूल्ये असलेल्या पंक्ती पुनर्प्राप्त करण्यासाठी .isin() फंक्शनसह बुलियन मास्किंग वापरतो.

पांडस लायब्ररी, डेटाफ्रेम स्ट्रक्चर्स आणि .isin() फंक्शनच्या स्पष्ट आकलनासह, आम्ही कोणतेही पांडा डेटाफ्रेम प्रभावीपणे फिल्टर करू शकतो. ही तंत्रे आम्हाला मोठ्या डेटासेट एक्सप्लोर करण्यास आणि सहजतेने मौल्यवान अंतर्दृष्टी काढण्यास अनुमती देतात, ज्यामुळे पांडांना पायथनमधील डेटा विश्लेषणासाठी एक जा-टू लायब्ररी बनते.

संबंधित पोस्ट:

एक टिप्पणी द्या