נפתרה: קבלת מספר הערכים החסרים בפנדות

Pandas היא ספריית מניפולציות נתונים בקוד פתוח בשימוש נרחב עבור Python. הוא מספק מבני נתונים ופונקציות הדרושים כדי לתפעל ולנתח ביעילות מערכי נתונים גדולים. אחת הבעיות הנפוצות שבהן נתקלים מדעני ואנליסטים בנתונים בעת שימוש בפנדות היא טיפול בערכים חסרים במערך הנתונים. במאמר זה, נחקור כיצד לספור את מספר הערכים החסרים ב-Pandas DataFrame באמצעות טכניקות שונות, הסברים שלב אחר שלב של הקוד, ונעמיק בכמה מהספריות והפונקציות הכרוכות בפתרון בעיה זו.

ספירת ערכים חסרים בפנדות

כדי להתחיל, עלינו לייבא תחילה את ספריית הפנדות. אם עדיין לא התקנת אותו, פשוט הפעל את הפקודה `pip install pandas` בטרמינל או בשורת הפקודה.

import pandas as pd

לאחר שייבאנו את ספריית הפנדות, בואו ניצור דוגמה של DataFrame עם ערכים חסרים, שבה נשתמש לאורך המאמר הזה כדי להדגים טכניקות שונות של ספירת ערכים חסרים.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

בדוגמה זו, יש לנו DataFrame עם שלוש עמודות: שם, גיל ועיר. ישנם כמה ערכים חסרים, אותם נמצא ונמנה בסעיף הבא.

איתור וספירה של ערכים חסרים באמצעות isnull() ו-sum()

השיטה הראשונה לספור ערכים חסרים ב-Pandas DataFrame היא באמצעות isnull() פוּנקצִיָה. פונקציה זו מחזירה DataFrame באותה צורה כמו המקור, אך עם ערכי True או False המציינים אם הערך המתאים חסר (כלומר, מכיל None או NaN) או לא.

missing_values = df.isnull()

כעת יש לנו DataFrame באותה צורה, עם ערכי True המציינים ערכים חסרים. כדי לספור את הערכים החסרים הללו, אנו יכולים פשוט להשתמש ב- סכום () פוּנקצִיָה. על ידי שימוש בו על ה-DataFrame, נוכל לקבל את מספר הערכים החסרים עבור כל עמודה.

count_missing_values = df.isnull().sum()

זה ייתן לנו סדרת פנדות עם מספר הערכים החסרים עבור כל עמודה ב-DataFrame שלנו.

גישה חלופית: שימוש ב-isna() ו-sum()

גישה נוספת לספירת ערכים חסרים ב-PandaFrame היא באמצעות isna() פוּנקצִיָה. זה כינוי עבור isnull() ועובד באותו אופן.

count_missing_values = df.isna().sum()

זה ייתן את אותה תוצאה כמו הגישה הקודמת, סופר את מספר הערכים החסרים עבור כל עמודה ב-DataFrame שלנו.

ספירת ערכים חסרים בכל ה-DataFrame

אם אנחנו רוצים למצוא את המספר הכולל של ערכים חסרים בכל ה-DataFrame, אנחנו יכולים פשוט לשרשר עוד אחד סכום () פונקציה אחרי הפונקציה sum() הראשונה.

total_missing_values = df.isnull().sum().sum()

פעולה זו תחזיר את המספר הכולל של הערכים החסרים בכל ה-DataFrame.

לסיכום, טיפול בערכים חסרים בפנדות הוא שלב מכריע בשלב ניקוי הנתונים והעיבוד המקדים. על ידי שימוש בפונקציות isnull() או isna(), בשילוב עם הפונקציה sum(), נוכל לספור ביעילות את מספר הערכים החסרים ב-DataFrame שלנו, מה שמקל על טיפול וניהול בעיות נתונים חסרים בניתוח שלנו.

הודעות קשורות:

השאירו תגובה