Selesai: mendapatkan bilangan nilai yang hilang dalam panda

Pandas ialah perpustakaan manipulasi data sumber terbuka yang digunakan secara meluas untuk Python. Ia menyediakan struktur data dan fungsi yang diperlukan untuk memanipulasi dan menganalisis set data yang besar dengan berkesan. Satu masalah biasa yang dihadapi oleh saintis dan penganalisis data semasa menggunakan panda ialah mengendalikan nilai yang hilang dalam set data. Dalam artikel ini, kami akan meneroka cara mengira bilangan nilai yang hilang dalam DataFrame panda menggunakan pelbagai teknik, penjelasan langkah demi langkah bagi kod dan menyelidiki dengan lebih mendalam beberapa perpustakaan dan fungsi yang terlibat dalam menyelesaikan masalah ini.

Mengira Nilai yang Hilang dalam Panda

Untuk memulakan, kita perlu mengimport perpustakaan panda terlebih dahulu. Jika anda belum memasangnya, cuma jalankan arahan `pip install panda` dalam terminal atau command prompt anda.

import pandas as pd

Setelah kami mengimport pustaka panda, mari buat sampel DataFrame dengan nilai yang tiada, yang akan kami gunakan sepanjang artikel ini untuk menunjukkan teknik berbeza mengira nilai yang hilang.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Dalam contoh ini, kami mempunyai DataFrame dengan tiga lajur: Nama, Umur dan Bandar. Terdapat beberapa nilai yang hilang, yang akan kami temui dan dikira dalam bahagian seterusnya.

Mencari dan Mengira Nilai Hilang menggunakan isnull() dan sum()

Kaedah pertama untuk mengira nilai yang hilang dalam DataFrame panda adalah dengan menggunakan isnull() fungsi. Fungsi ini mengembalikan DataFrame dengan bentuk yang sama seperti yang asal, tetapi dengan nilai Benar atau Salah yang menunjukkan sama ada entri yang sepadan tiada (iaitu, mengandungi Tiada atau NaN) atau tidak.

missing_values = df.isnull()

Kini kami mempunyai DataFrame dengan bentuk yang sama, dengan nilai True menunjukkan entri yang hilang. Untuk mengira nilai yang hilang ini, kita hanya boleh menggunakan jumlah() fungsi. Dengan menggunakannya melalui DataFrame, kita boleh mendapatkan bilangan nilai yang hilang untuk setiap lajur.

count_missing_values = df.isnull().sum()

Ini akan memberi kami Siri panda dengan bilangan nilai yang tiada untuk setiap lajur dalam DataFrame kami.

Pendekatan Alternatif: Menggunakan isna() dan sum()

Satu lagi pendekatan untuk mengira nilai yang hilang dalam DataFrame panda adalah dengan menggunakan isna() fungsi. Ia adalah alias untuk isnull() dan berfungsi dengan cara yang sama.

count_missing_values = df.isna().sum()

Ini akan memberikan hasil yang sama seperti pendekatan sebelumnya, mengira bilangan nilai yang hilang untuk setiap lajur dalam DataFrame kami.

Mengira Nilai Hilang dalam Keseluruhan DataFrame

Jika kita ingin mencari jumlah bilangan nilai yang hilang dalam keseluruhan DataFrame, kita hanya boleh merantai satu lagi jumlah() fungsi selepas fungsi sum() pertama.

total_missing_values = df.isnull().sum().sum()

Ini akan mengembalikan jumlah bilangan nilai yang hilang dalam keseluruhan DataFrame.

Secara ringkasnya, pengendalian nilai yang hilang dalam panda merupakan langkah penting dalam fasa pembersihan dan prapemprosesan data. Dengan menggunakan fungsi isnull() atau isna(), dalam kombinasi dengan fungsi sum(), kami boleh mengira bilangan nilai yang hilang dengan cekap dalam DataFrame kami, menjadikannya lebih mudah untuk menangani dan mengurus isu data yang hilang dalam analisis kami.

Related posts:

Tinggalkan komen