تم الحل: الحصول على عدد القيم المفقودة في الباندا

Pandas هي مكتبة معالجة بيانات مفتوحة المصدر مستخدمة على نطاق واسع في Python. يوفر هياكل البيانات والوظائف اللازمة للتعامل الفعال مع مجموعات البيانات الكبيرة وتحليلها. إحدى المشكلات الشائعة التي يواجهها العلماء والمحللون في البيانات أثناء استخدام الباندا هي التعامل مع القيم المفقودة في مجموعة البيانات. في هذه المقالة ، سوف نستكشف كيفية حساب عدد القيم المفقودة في Pandas DataFrame باستخدام تقنيات مختلفة ، وشرح التعليمات البرمجية خطوة بخطوة ، والتعمق في بعض المكتبات والوظائف المشاركة في حل هذه المشكلة.

حساب القيم المفقودة في الباندا

للبدء ، نحتاج أولاً إلى استيراد مكتبة الباندا. إذا لم تقم بتثبيته بعد ، فما عليك سوى تشغيل الأمر "pip install pandas" في الجهاز الطرفي أو موجه الأوامر.

import pandas as pd

بمجرد استيراد مكتبة الباندا ، فلنقم بإنشاء نموذج DataFrame بقيم مفقودة ، والتي سنستخدمها في جميع أنحاء هذه المقالة لتوضيح تقنيات مختلفة لحساب القيم المفقودة.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

في هذا المثال ، لدينا DataFrame بثلاثة أعمدة: الاسم والعمر والمدينة. هناك بعض القيم المفقودة ، والتي سنجدها ونعدها في القسم التالي.

البحث عن القيم المفقودة وحسابها باستخدام isnull () و sum ()

الطريقة الأولى لحساب القيم المفقودة في Pandas DataFrame هي باستخدام باطل() وظيفة. ترجع هذه الدالة DataFrame بنفس الشكل مثل الأصل ، ولكن بقيم True أو False تشير إلى ما إذا كان الإدخال المقابل مفقودًا (أي يحتوي على None أو NaN) أم لا.

missing_values = df.isnull()

الآن لدينا DataFrame من نفس الشكل ، مع القيم الحقيقية التي تشير إلى الإدخالات المفقودة. لحساب هذه القيم المفقودة ، يمكننا ببساطة استخدام المبلغ () وظيفة. باستخدامه عبر DataFrame ، يمكننا الحصول على عدد القيم المفقودة لكل عمود.

count_missing_values = df.isnull().sum()

سيعطينا هذا سلسلة الباندا مع عدد القيم المفقودة لكل عمود في DataFrame الخاص بنا.

الطريقة البديلة: استخدام إسنا () وسام ()

طريقة أخرى لحساب القيم المفقودة في pandas DataFrame باستخدام إسنا () وظيفة. إنه اسم مستعار لـ isnull () ويعمل بنفس الطريقة.

count_missing_values = df.isna().sum()

سيعطي هذا نفس النتيجة مثل الطريقة السابقة ، مع حساب عدد القيم المفقودة لكل عمود في DataFrame الخاص بنا.

حساب القيم المفقودة في DataFrame بأكمله

إذا أردنا إيجاد العدد الإجمالي للقيم المفقودة في DataFrame بأكمله ، فيمكننا ببساطة ربط قيم أخرى المبلغ () وظيفة بعد أول دالة sum ().

total_missing_values = df.isnull().sum().sum()

سيؤدي هذا إلى إرجاع العدد الإجمالي للقيم المفقودة في DataFrame بأكمله.

باختصار ، تعتبر معالجة القيم المفقودة في الباندا خطوة حاسمة في مرحلة تنظيف البيانات والمعالجة المسبقة. باستخدام الدالتين isnull () أو isna () ، جنبًا إلى جنب مع وظيفة sum () ، يمكننا حساب عدد القيم المفقودة في DataFrame بكفاءة ، مما يسهل معالجة وإدارة مشكلات البيانات المفقودة في تحليلنا.

الوظائف ذات الصلة:

اترك تعليق