सोडवले: पांडांमधील गहाळ मूल्यांची संख्या मिळवणे

Pandas ही Python साठी मोठ्या प्रमाणावर वापरलेली ओपन-सोर्स डेटा मॅनिप्युलेशन लायब्ररी आहे. हे मोठ्या डेटासेटचे प्रभावीपणे हाताळणी आणि विश्लेषण करण्यासाठी आवश्यक डेटा संरचना आणि कार्ये प्रदान करते. पांडा वापरताना डेटा शास्त्रज्ञ आणि विश्लेषकांना भेडसावणारी एक सामान्य समस्या म्हणजे डेटासेटमधील हरवलेली मूल्ये हाताळणे. या लेखात, आम्ही विविध तंत्रांचा वापर करून, कोडचे चरण-दर-चरण स्पष्टीकरण वापरून पांडा डेटाफ्रेममधील हरवलेल्या मूल्यांची संख्या कशी मोजायची आणि या समस्येचे निराकरण करण्यात गुंतलेली काही लायब्ररी आणि कार्ये यांचा सखोल अभ्यास करू.

पांडांमध्ये गहाळ मूल्ये मोजणे

प्रारंभ करण्यासाठी, आम्हाला प्रथम पांडा लायब्ररी आयात करण्याची आवश्यकता आहे. तुम्ही ते अजून इन्स्टॉल केले नसेल, तर फक्त तुमच्या टर्मिनल किंवा कमांड प्रॉम्प्टमध्ये `pip install pandas` कमांड चालवा.

import pandas as pd

एकदा आपण पांडस लायब्ररी आयात केल्यावर, गहाळ मूल्यांसह नमुना डेटाफ्रेम तयार करूया, ज्याचा वापर आपण या लेखात हरवलेल्या मूल्यांची मोजणी करण्याच्या विविध तंत्रांचे प्रदर्शन करण्यासाठी करू.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

या उदाहरणात, आमच्याकडे तीन स्तंभांसह डेटाफ्रेम आहे: नाव, वय आणि शहर. काही गहाळ मूल्ये आहेत, जी आपण पुढील विभागात शोधू आणि मोजू.

isnull() आणि sum() वापरून गहाळ मूल्ये शोधणे आणि मोजणे

पांडा डेटाफ्रेममधील गहाळ मूल्ये मोजण्याची पहिली पद्धत वापरून आहे isnull() कार्य हे फंक्शन मूळ प्रमाणेच डेटाफ्रेम मिळवते, परंतु खरे किंवा असत्य मूल्यांसह संबंधित एंट्री गहाळ आहे की नाही हे दर्शविते (म्हणजे काहीही किंवा NaN समाविष्ट नाही) किंवा नाही.

missing_values = df.isnull()

आता आमच्याकडे समान आकाराचा डेटाफ्रेम आहे, ज्यामध्ये सत्य मूल्ये गहाळ नोंदी दर्शवितात. ही गहाळ मूल्ये मोजण्यासाठी, आम्ही फक्त वापरू शकतो बेरीज() कार्य डेटाफ्रेमवर त्याचा वापर करून, आपण प्रत्येक स्तंभासाठी गहाळ मूल्यांची संख्या मिळवू शकतो.

count_missing_values = df.isnull().sum()

हे आम्हाला आमच्या डेटाफ्रेममधील प्रत्येक स्तंभासाठी गहाळ मूल्यांच्या संख्येसह एक पांडा मालिका देईल.

पर्यायी दृष्टीकोन: isna() आणि sum() वापरणे

पांडा डेटाफ्रेममधील गहाळ मूल्ये मोजण्याचा आणखी एक दृष्टीकोन म्हणजे वापरणे isna() कार्य हे isnull() चे उपनाव आहे आणि त्याच प्रकारे कार्य करते.

count_missing_values = df.isna().sum()

हे आमच्या डेटाफ्रेममधील प्रत्येक स्तंभासाठी गहाळ मूल्यांची संख्या मोजून, मागील पद्धतीप्रमाणेच परिणाम देईल.

संपूर्ण डेटाफ्रेममध्ये गहाळ मूल्ये मोजणे

संपूर्ण डेटाफ्रेममध्ये गहाळ व्हॅल्यूजची एकूण संख्या शोधायची असल्यास, आम्ही फक्त दुसरी साखळी करू शकतो बेरीज() पहिल्या sum() फंक्शन नंतर फंक्शन.

total_missing_values = df.isnull().sum().sum()

हे संपूर्ण डेटाफ्रेममधील गहाळ मूल्यांची एकूण संख्या परत करेल.

सारांश, डेटा क्लीनिंग आणि प्री-प्रोसेसिंग टप्प्यात पांडामधील गहाळ मूल्ये हाताळणे ही एक महत्त्वाची पायरी आहे. isnull() किंवा isna() फंक्शन्सचा वापर करून, sum() फंक्शनच्या संयोगाने, आम्ही आमच्या डेटाफ्रेममधील गहाळ मूल्यांची संख्या कार्यक्षमतेने मोजू शकतो, ज्यामुळे आमच्या विश्लेषणातील गहाळ डेटा समस्यांचे निराकरण करणे आणि व्यवस्थापित करणे सोपे होते.

संबंधित पोस्ट:

एक टिप्पणी द्या