Pandas เป็นไลบรารีจัดการข้อมูลโอเพ่นซอร์สที่ใช้กันอย่างแพร่หลายสำหรับ Python มีโครงสร้างข้อมูลและฟังก์ชันที่จำเป็นในการจัดการและวิเคราะห์ชุดข้อมูลขนาดใหญ่อย่างมีประสิทธิภาพ ปัญหาทั่วไปอย่างหนึ่งที่นักวิทยาศาสตร์และนักวิเคราะห์ข้อมูลพบขณะใช้แพนด้าคือการจัดการค่าที่ขาดหายไปในชุดข้อมูล ในบทความนี้ เราจะสำรวจวิธีนับจำนวนค่าที่ขาดหายไปใน DataFrame แพนด้าโดยใช้เทคนิคต่างๆ คำอธิบายโค้ดทีละขั้นตอน และเจาะลึกเข้าไปในไลบรารีและฟังก์ชันบางส่วนที่เกี่ยวข้องในการแก้ปัญหานี้
การนับค่าที่ขาดหายไปใน Pandas
ในการเริ่มต้น เราต้องนำเข้าไลบรารีแพนด้าก่อน หากคุณยังไม่ได้ติดตั้ง ให้เรียกใช้คำสั่ง `pip install pandas` ในเทอร์มินัลหรือคอมมานด์พรอมต์ของคุณ
import pandas as pd
เมื่อเรานำเข้าไลบรารีแพนด้าแล้ว มาสร้างตัวอย่าง DataFrame ที่มีค่าขาดหายไป ซึ่งเราจะใช้ตลอดทั้งบทความนี้เพื่อสาธิตเทคนิคต่างๆ ในการนับค่าที่ขาดหายไป
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
ในตัวอย่างนี้ เรามี DataFrame ที่มีสามคอลัมน์: ชื่อ อายุ และเมือง มีค่าที่ขาดหายไปซึ่งเราจะค้นหาและนับในส่วนถัดไป
การค้นหาและการนับค่าที่หายไปโดยใช้ isnull() และ sum()
วิธีแรกในการนับค่าที่ขาดหายไปใน DataFrame แพนด้าคือการใช้ เป็นโมฆะ () การทำงาน. ฟังก์ชันนี้ส่งคืน DataFrame ที่มีรูปร่างเหมือนกับต้นฉบับ แต่มีค่า True หรือ False ที่ระบุว่ารายการที่เกี่ยวข้องขาดหายไป (เช่น มี None หรือ NaN) หรือไม่
missing_values = df.isnull()
ตอนนี้เรามี DataFrame ที่มีรูปร่างเหมือนกัน โดยมีค่า True ที่ระบุรายการที่ขาดหายไป ในการนับค่าที่หายไปเหล่านี้ เราสามารถใช้ ผลรวม () การทำงาน. เมื่อใช้ผ่าน DataFrame เราจะได้จำนวนค่าที่ขาดหายไปสำหรับแต่ละคอลัมน์
count_missing_values = df.isnull().sum()
สิ่งนี้จะให้ชุดหมีแพนด้าพร้อมจำนวนค่าที่ขาดหายไปสำหรับแต่ละคอลัมน์ใน DataFrame ของเรา
แนวทางอื่น: การใช้ isna() และ sum()
อีกวิธีหนึ่งในการนับค่าที่ขาดหายไปใน DataFrame แพนด้าคือการใช้ อิสนา() การทำงาน. เป็นนามแฝงสำหรับ isnull() และทำงานในลักษณะเดียวกัน
count_missing_values = df.isna().sum()
ซึ่งจะให้ผลลัพธ์เหมือนกับวิธีก่อนหน้า โดยนับจำนวนค่าที่ขาดหายไปสำหรับแต่ละคอลัมน์ใน DataFrame ของเรา
การนับค่าที่ขาดหายไปใน DataFrame ทั้งหมด
หากเราต้องการหาจำนวนค่าที่ขาดหายไปใน DataFrame ทั้งหมด เราสามารถเชื่อมโยงค่าอื่นได้ ผลรวม () ฟังก์ชันหลังฟังก์ชัน sum() ตัวแรก
total_missing_values = df.isnull().sum().sum()
ซึ่งจะส่งคืนจำนวนค่าที่ขาดหายไปทั้งหมดใน DataFrame ทั้งหมด
โดยสรุป การจัดการค่าที่ขาดหายไปในแพนด้าเป็นขั้นตอนสำคัญในการล้างข้อมูลและขั้นตอนก่อนการประมวลผล ด้วยการใช้ฟังก์ชัน isnull() หรือ isna() ร่วมกับฟังก์ชัน sum() เราสามารถนับจำนวนค่าที่ขาดหายไปใน DataFrame ของเราได้อย่างมีประสิทธิภาพ ทำให้ง่ายต่อการจัดการและจัดการปัญหาข้อมูลที่ขาดหายไปในการวิเคราะห์ของเรา