हल: पांडा में लापता मूल्यों की संख्या प्राप्त करना

पांडा पायथन के लिए व्यापक रूप से उपयोग किया जाने वाला ओपन-सोर्स डेटा मैनिपुलेशन लाइब्रेरी है। यह बड़े डेटासेट को प्रभावी ढंग से हेरफेर और विश्लेषण करने के लिए आवश्यक डेटा संरचना और कार्य प्रदान करता है। पांडा का उपयोग करते समय एक आम समस्या डेटा वैज्ञानिकों और विश्लेषकों का सामना करना पड़ता है जो डेटासेट में लापता मूल्यों को संभाल रहा है। इस लेख में, हम विभिन्न तकनीकों, कोड के चरण-दर-चरण स्पष्टीकरण, और इस समस्या को हल करने में शामिल कुछ पुस्तकालयों और कार्यों में गहराई से तल्लीन करने के लिए एक पांडा डेटाफ़्रेम में लापता मूल्यों की संख्या की गणना करने का तरीका जानेंगे।

पंडों में लापता मूल्यों की गिनती

शुरू करने के लिए, हमें पहले पांडा लाइब्रेरी को इम्पोर्ट करना होगा। यदि आपने इसे अभी तक स्थापित नहीं किया है, तो बस अपने टर्मिनल या कमांड प्रॉम्प्ट में `पाइप इंस्टाल पांडा` कमांड चलाएँ।

import pandas as pd

एक बार जब हम पांडा लाइब्रेरी आयात कर लेते हैं, तो लापता मानों के साथ एक नमूना डेटाफ़्रेम बनाते हैं, जिसका उपयोग हम इस लेख में लापता मूल्यों की गणना करने की विभिन्न तकनीकों को प्रदर्शित करने के लिए करेंगे।

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

इस उदाहरण में, हमारे पास तीन स्तंभों वाला डेटाफ़्रेम है: नाम, आयु और शहर। कुछ लापता मान हैं, जिन्हें हम अगले भाग में खोजेंगे और गिनेंगे।

isnull () और योग () का उपयोग करके लापता मानों को ढूँढना और गिनना

पांडा डेटाफ़्रेम में लापता मानों की गणना करने की पहली विधि का उपयोग करना है शून्य है() समारोह। यह फ़ंक्शन मूल के समान आकार का एक DataFrame लौटाता है, लेकिन True या False मानों के साथ यह दर्शाता है कि संबंधित प्रविष्टि गायब है (यानी, कोई नहीं या NaN शामिल है) या नहीं।

missing_values = df.isnull()

अब हमारे पास समान आकार का एक डेटाफ़्रेम है, जिसमें सही मान गुम प्रविष्टियों को दर्शाता है। इन लापता मूल्यों की गणना करने के लिए, हम बस का उपयोग कर सकते हैं योग () समारोह। DataFrame पर इसका उपयोग करके, हम प्रत्येक कॉलम के लापता मानों की संख्या प्राप्त कर सकते हैं।

count_missing_values = df.isnull().sum()

यह हमें हमारे DataFrame में प्रत्येक कॉलम के लिए अनुपलब्ध मानों की संख्या के साथ एक पांडा श्रृंखला देगा।

वैकल्पिक दृष्टिकोण: इस्ना () और योग () का उपयोग करना

एक पांडा डेटाफ़्रेम में लापता मानों की गणना करने का एक अन्य तरीका उपयोग करना है इस्ना () समारोह। यह isnull() के लिए उपनाम है और उसी तरह काम करता है।

count_missing_values = df.isna().sum()

यह हमारे डेटाफ़्रेम में प्रत्येक कॉलम के लिए लापता मानों की संख्या की गणना करते हुए, पिछले दृष्टिकोण के समान परिणाम देगा।

संपूर्ण डेटाफ़्रेम में गुम मानों की गणना करना

यदि हम संपूर्ण डेटाफ़्रेम में लापता मानों की कुल संख्या का पता लगाना चाहते हैं, तो हम बस एक और श्रृंखला बना सकते हैं योग () पहले योग () फ़ंक्शन के बाद कार्य करें।

total_missing_values = df.isnull().sum().sum()

यह संपूर्ण डेटाफ़्रेम में लापता मानों की कुल संख्या लौटाएगा।

संक्षेप में, डेटा की सफाई और पूर्व-प्रसंस्करण चरण में पांडा में लापता मूल्यों को संभालना एक महत्वपूर्ण कदम है। योग () फ़ंक्शन के संयोजन में isnull () या isna () फ़ंक्शंस का उपयोग करके, हम अपने डेटाफ़्रेम में लापता मानों की संख्या की कुशलता से गणना कर सकते हैं, जिससे हमारे विश्लेषण में लापता डेटा मुद्दों को संबोधित करना और प्रबंधित करना आसान हो जाता है।

संबंधित पोस्ट:

एक टिप्पणी छोड़ दो