Diselesaikan: mendapatkan jumlah nilai yang hilang di panda

Pandas adalah pustaka manipulasi data sumber terbuka yang banyak digunakan untuk Python. Ini menyediakan struktur dan fungsi data yang diperlukan untuk memanipulasi dan menganalisis kumpulan data besar secara efektif. Salah satu masalah umum yang dihadapi para ilmuwan dan analis data saat menggunakan panda adalah menangani nilai yang hilang dalam kumpulan data. Pada artikel ini, kita akan mengeksplorasi cara menghitung jumlah nilai yang hilang di DataFrame panda menggunakan berbagai teknik, penjelasan kode langkah demi langkah, dan mempelajari lebih dalam beberapa pustaka dan fungsi yang terlibat dalam penyelesaian masalah ini.

Menghitung Nilai yang Hilang di Panda

Untuk memulai, pertama-tama kita perlu mengimpor pustaka pandas. Jika Anda belum menginstalnya, cukup jalankan perintah `pip install pandas` di terminal atau command prompt Anda.

import pandas as pd

Setelah kita mengimpor pustaka panda, mari buat contoh DataFrame dengan nilai yang hilang, yang akan kita gunakan di sepanjang artikel ini untuk mendemonstrasikan berbagai teknik penghitungan nilai yang hilang.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Dalam contoh ini, kami memiliki DataFrame dengan tiga kolom: Nama, Umur, dan Kota. Ada beberapa nilai yang hilang, yang akan kita temukan dan hitung di bagian selanjutnya.

Menemukan dan Menghitung Nilai yang Hilang menggunakan isnull() dan sum()

Metode pertama untuk menghitung nilai yang hilang dalam DataFrame panda adalah dengan menggunakan batal() fungsi. Fungsi ini mengembalikan DataFrame dengan bentuk yang sama seperti aslinya, tetapi dengan nilai True atau False yang menunjukkan apakah entri terkait hilang (yaitu, berisi Tidak ada atau NaN) atau tidak.

missing_values = df.isnull()

Sekarang kami memiliki DataFrame dengan bentuk yang sama, dengan nilai True menunjukkan entri yang hilang. Untuk menghitung nilai yang hilang ini, kita cukup menggunakan the jumlah() fungsi. Dengan menggunakannya di atas DataFrame, kita bisa mendapatkan jumlah nilai yang hilang untuk setiap kolom.

count_missing_values = df.isnull().sum()

Ini akan memberi kita Seri panda dengan jumlah nilai yang hilang untuk setiap kolom di DataFrame kita.

Pendekatan Alternatif: Menggunakan isna() dan sum()

Pendekatan lain untuk menghitung nilai yang hilang dalam DataFrame panda adalah dengan menggunakan metode isna() fungsi. Ini adalah alias untuk isnull() dan bekerja dengan cara yang sama.

count_missing_values = df.isna().sum()

Ini akan memberikan hasil yang sama dengan pendekatan sebelumnya, menghitung jumlah nilai yang hilang untuk setiap kolom di DataFrame kami.

Menghitung Nilai yang Hilang di Seluruh DataFrame

Jika kami ingin menemukan jumlah total nilai yang hilang di seluruh DataFrame, kami cukup membuat rantai yang lain jumlah() fungsi setelah fungsi sum() pertama.

total_missing_values = df.isnull().sum().sum()

Ini akan mengembalikan jumlah total nilai yang hilang di seluruh DataFrame.

Singkatnya, penanganan nilai yang hilang di panda adalah langkah penting dalam pembersihan data dan fase pra-pemrosesan. Dengan menggunakan fungsi isnull() atau isna(), dikombinasikan dengan fungsi sum(), kita dapat secara efisien menghitung jumlah nilai yang hilang dalam DataFrame kita, membuatnya lebih mudah untuk mengatasi dan mengelola masalah data yang hilang dalam analisis kita.

Pos terkait:

Tinggalkan Komentar