แก้ไขแล้ว: รับจำนวนค่าที่ขาดหายไปในแพนด้า

Pandas เป็นไลบรารีจัดการข้อมูลโอเพ่นซอร์สที่ใช้กันอย่างแพร่หลายสำหรับ Python มีโครงสร้างข้อมูลและฟังก์ชันที่จำเป็นในการจัดการและวิเคราะห์ชุดข้อมูลขนาดใหญ่อย่างมีประสิทธิภาพ ปัญหาทั่วไปอย่างหนึ่งที่นักวิทยาศาสตร์และนักวิเคราะห์ข้อมูลพบขณะใช้แพนด้าคือการจัดการค่าที่ขาดหายไปในชุดข้อมูล ในบทความนี้ เราจะสำรวจวิธีนับจำนวนค่าที่ขาดหายไปใน DataFrame แพนด้าโดยใช้เทคนิคต่างๆ คำอธิบายโค้ดทีละขั้นตอน และเจาะลึกเข้าไปในไลบรารีและฟังก์ชันบางส่วนที่เกี่ยวข้องในการแก้ปัญหานี้

การนับค่าที่ขาดหายไปใน Pandas

ในการเริ่มต้น เราต้องนำเข้าไลบรารีแพนด้าก่อน หากคุณยังไม่ได้ติดตั้ง ให้เรียกใช้คำสั่ง `pip install pandas` ในเทอร์มินัลหรือคอมมานด์พรอมต์ของคุณ

import pandas as pd

เมื่อเรานำเข้าไลบรารีแพนด้าแล้ว มาสร้างตัวอย่าง DataFrame ที่มีค่าขาดหายไป ซึ่งเราจะใช้ตลอดทั้งบทความนี้เพื่อสาธิตเทคนิคต่างๆ ในการนับค่าที่ขาดหายไป

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

ในตัวอย่างนี้ เรามี DataFrame ที่มีสามคอลัมน์: ชื่อ อายุ และเมือง มีค่าที่ขาดหายไปซึ่งเราจะค้นหาและนับในส่วนถัดไป

การค้นหาและการนับค่าที่หายไปโดยใช้ isnull() และ sum()

วิธีแรกในการนับค่าที่ขาดหายไปใน DataFrame แพนด้าคือการใช้ เป็นโมฆะ () การทำงาน. ฟังก์ชันนี้ส่งคืน DataFrame ที่มีรูปร่างเหมือนกับต้นฉบับ แต่มีค่า True หรือ False ที่ระบุว่ารายการที่เกี่ยวข้องขาดหายไป (เช่น มี None หรือ NaN) หรือไม่

missing_values = df.isnull()

ตอนนี้เรามี DataFrame ที่มีรูปร่างเหมือนกัน โดยมีค่า True ที่ระบุรายการที่ขาดหายไป ในการนับค่าที่หายไปเหล่านี้ เราสามารถใช้ ผลรวม () การทำงาน. เมื่อใช้ผ่าน DataFrame เราจะได้จำนวนค่าที่ขาดหายไปสำหรับแต่ละคอลัมน์

count_missing_values = df.isnull().sum()

สิ่งนี้จะให้ชุดหมีแพนด้าพร้อมจำนวนค่าที่ขาดหายไปสำหรับแต่ละคอลัมน์ใน DataFrame ของเรา

แนวทางอื่น: การใช้ isna() และ sum()

อีกวิธีหนึ่งในการนับค่าที่ขาดหายไปใน DataFrame แพนด้าคือการใช้ อิสนา() การทำงาน. เป็นนามแฝงสำหรับ isnull() และทำงานในลักษณะเดียวกัน

count_missing_values = df.isna().sum()

ซึ่งจะให้ผลลัพธ์เหมือนกับวิธีก่อนหน้า โดยนับจำนวนค่าที่ขาดหายไปสำหรับแต่ละคอลัมน์ใน DataFrame ของเรา

การนับค่าที่ขาดหายไปใน DataFrame ทั้งหมด

หากเราต้องการหาจำนวนค่าที่ขาดหายไปใน DataFrame ทั้งหมด เราสามารถเชื่อมโยงค่าอื่นได้ ผลรวม () ฟังก์ชันหลังฟังก์ชัน sum() ตัวแรก

total_missing_values = df.isnull().sum().sum()

ซึ่งจะส่งคืนจำนวนค่าที่ขาดหายไปทั้งหมดใน DataFrame ทั้งหมด

โดยสรุป การจัดการค่าที่ขาดหายไปในแพนด้าเป็นขั้นตอนสำคัญในการล้างข้อมูลและขั้นตอนก่อนการประมวลผล ด้วยการใช้ฟังก์ชัน isnull() หรือ isna() ร่วมกับฟังก์ชัน sum() เราสามารถนับจำนวนค่าที่ขาดหายไปใน DataFrame ของเราได้อย่างมีประสิทธิภาพ ทำให้ง่ายต่อการจัดการและจัดการปัญหาข้อมูลที่ขาดหายไปในการวิเคราะห์ของเรา

กระทู้ที่เกี่ยวข้อง:

แสดงความคิดเห็น