حل: الباندا قيمة فريدة لكل عمود

Pandas هي مكتبة Python قوية وواسعة الاستخدام لمعالجة البيانات وتحليلها. تتمثل إحدى المهام الشائعة عند العمل مع مجموعات البيانات في الحاجة إلى العثور على قيم فريدة في كل عمود. يمكن أن يكون هذا مفيدًا في فهم تنوع وتوزيع القيم في بياناتك ، بالإضافة إلى تحديد القيم المتطرفة والأخطاء المحتملة. في هذه المقالة ، سوف نستكشف كيفية إنجاز هذه المهمة باستخدام Pandas ونقدم شرحًا تفصيليًا خطوة بخطوة للكود المتضمن. سنناقش أيضًا بعض المكتبات والوظائف ذات الصلة التي قد تكون مفيدة عند العمل بقيم فريدة ومهام تحليل البيانات الأخرى.

لحل مشكلة العثور على قيم فريدة في كل عمود باستخدام Pandas ، سنحتاج أولاً إلى استيراد المكتبة وقراءتها في مجموعة البيانات الخاصة بنا. بمجرد أن نحصل على DataFrame الخاص بنا ، يمكننا بعد ذلك استخدام الدالتين `` nunique () 'و' الفريد () `للعثور على القيم الفريدة لكل عمود وعرضها.

import pandas as pd

# Read in the dataset
data = pd.read_csv('your_data_file.csv')

# Find and display the unique values for each column
for column in data.columns:
    unique_count = data[column].nunique()
    unique_values = data[column].unique()
    print(f"Column '{column}' has {unique_count} unique values:")
    print(unique_values)

في مقتطف الشفرة أعلاه ، نقوم أولاً باستيراد مكتبة Pandas وقراءتها في مجموعة البيانات الخاصة بنا باستخدام الوظيفة `pd.read_csv ()`. بعد ذلك ، نكرر كل عمود في DataFrame باستخدام حلقة for. داخل الحلقة ، نستخدم الدالة `nunique ()` للعثور على عدد القيم الفريدة في العمود الحالي ، والدالة `الفريد ()` لاسترداد مجموعة القيم الفريدة نفسها. أخيرًا ، نقوم بطباعة النتائج باستخدام سلاسل منسقة.

Pandas nunique () والوظائف الفريدة ()

الباندا نونيك (مؤلف) هي دالة مفيدة تُرجع عدد القيم الفريدة في عمود سلسلة أو DataFrame محدد. يمكن أن يكون هذا مفيدًا عند محاولة فهم التعقيد العام لمجموعة البيانات وتنوعها. يأخذ في الاعتبار أي قيم مفقودة (مثل "NaN") ويستبعدها افتراضيًا. إذا كنت تريد تضمين القيم المفقودة في العد ، فيمكنك تعيين معلمة `dropna` على` False` ، مثل: `nunique (dropna = False)`.

الباندا الفريدة () هي وظيفة أخرى قيّمة تقوم بإرجاع صفيف من القيم الفريدة في عمود محدد من السلسلة أو DataFrame. بخلاف `` nunique () '' ، تقوم هذه الوظيفة بإرجاع القيم الفريدة نفسها ، مما يسمح لك بتحليلها أو معالجتها أو عرضها حسب الحاجة.

توفر هذه الوظائف معًا طريقة قوية وفعالة للعثور على القيم الفريدة والعمل معها في مجموعة البيانات الخاصة بك.

المكتبات ذات الصلة لتحليل البيانات

نمباي هي مكتبة Python شائعة للحوسبة الرقمية والتي غالبًا ما تستخدم مع Pandas. يوفر مجموعة واسعة من الوظائف والأدوات الرياضية للعمل مع المصفوفات والمصفوفات ذات الأبعاد n. عند التعامل مع مجموعات البيانات الكبيرة والحسابات المعقدة ، يمكن أن يكون Numpy مفيدًا بشكل خاص لتحسينات الأداء وهياكل البيانات المحسنة.

Scikit تعلم هي مكتبة قوية للتعلم الآلي في بايثون. يوفر مجموعة متنوعة من الخوارزميات للتصنيف والانحدار والتجميع وتقليل الأبعاد ، جنبًا إلى جنب مع أدوات المعالجة المسبقة للبيانات واختيار النموذج والتقييم. إذا كنت تعمل بقيم فريدة وميزات أخرى لمجموعة البيانات الخاصة بك لبناء نماذج تنبؤية أو أداء مهام أخرى للتعلم الآلي ، فإن Scikit-Learn هي مكتبة تريد استكشافها بشكل أكبر.

في الختام ، يعد العثور على قيم فريدة في كل عمود من مجموعة البيانات خطوة مهمة في العديد من عمليات تحليل البيانات والمعالجة المسبقة لسير العمل. يوفر Pandas وظائف `` nunique () '' و `` الفريدة () '' الفعالة وسهلة الاستخدام للمساعدة في هذه المهمة ، ويمكن أن يؤدي فهم استخدامها إلى تحسين سرعة وفعالية مشاريع تحليل البيانات بشكل كبير. بالإضافة إلى ذلك ، فإن توسيع معرفتك بالمكتبات ذات الصلة ، مثل Numpy و Scikit-Learn ، يمكن أن يعزز قدراتك في معالجة البيانات وتحليلها ، مما يجعلك في وضع جيد في مجال علم البيانات المتنامي باستمرار.

الوظائف ذات الصلة:

اترك تعليق