Selesai: gunakan dict untuk menggantikan panda nilai yang hilang

Dalam dunia manipulasi dan analisis data, mengendalikan nilai yang hilang adalah tugas yang penting. Pandas, perpustakaan Python yang digunakan secara meluas, membolehkan kami mengurus data yang hilang dengan cekap. Satu pendekatan biasa untuk menangani nilai yang hilang melibatkan penggunaan kamus untuk memetakan dan menggantikan nilai ini. Dalam artikel ini, kita akan membincangkan cara memanfaatkan kuasa Panda dan Python untuk menggunakan kamus untuk menggantikan nilai yang hilang dalam set data.

Penyelesaian

Penyelesaian utama yang akan kami terokai ialah menggunakan fillna() berfungsi bersama dengan kamus. Pendekatan ini akan membolehkan kami menggantikan nilai yang hilang dengan nilai yang sepadan daripada kamus yang ditentukan.

Penjelasan langkah demi langkah kod

Untuk menggambarkan proses ini, mari kita anggap kita mempunyai set data yang mengandungi maklumat tentang pelbagai gaya fesyen, termasuk pakaian, warna dan konteks sejarah. Dalam sesetengah kes, mungkin terdapat nilai yang hilang dalam set data ini.

Pertama, import perpustakaan yang diperlukan dan buat sampel DataFrame:

import pandas as pd

data = {
    'style': ['Grunge', 'Bohemian', 'Preppy', None, 'Punk', 'Casual'],
    'garments': ['Plaid shirt', None, 'Blazer', 'Maxi dress', 'Leather jacket', 'T-shirt'],
    'colors': ['Black', 'Faded', 'Light', 'Earthy', None, None]
}

df = pd.DataFrame(data)

Sekarang kita mempunyai DataFrame yang menggambarkan masalah, perhatikan bahawa beberapa nilai hilang (ditandakan dengan Tiada). Untuk menggantikan nilai ini, cipta kamus yang mengandungi pemetaan yang sesuai:

style_dict = {None: 'Unknown'}
garments_dict = {None: 'Other'}
colors_dict = {None: 'Various'}

# Combine dictionaries
replacement_dict = {'style': style_dict, 'garments': garments_dict, 'colors': colors_dict}

Akhir sekali, gunakan fillna() berfungsi untuk menggantikan nilai yang hilang menggunakan kamus gabungan:

df_filled = df.fillna(replacement_dict)

Memahami perpustakaan Pandas

Pandas ialah perpustakaan serba boleh dalam Python yang direka untuk manipulasi dan analisis data. Ia menawarkan struktur data yang fleksibel dan berkuasa seperti Siri dan DataFrame. Struktur ini penting untuk berfungsi dengan cekap dengan data berstruktur dan jadual.

Panda menyediakan koleksi fungsi yang kaya, seperti fillna(), digunakan untuk mengendalikan data yang hilang. Operasi lain, seperti menggabungkan data, data berputar dan analisis siri masa, boleh dilakukan dengan lancar dengan Panda.

Fungsi untuk mengendalikan data yang hilang

Sebagai tambahan kepada fillna() fungsi, Pandas menawarkan beberapa fungsi dan kaedah lain untuk menangani data yang hilang, seperti:

  • dropna(): Alih keluar baris atau lajur dengan data yang tiada.
  • isna(): Tentukan elemen DataFrame atau Siri yang tiada atau batal.
  • notna(): Tentukan elemen DataFrame atau Siri yang tidak hilang atau batal.
  • interpolate(): Isikan nilai yang hilang menggunakan interpolasi linear.

Kaedah-kaedah ini, bersama-sama dengan fillna(), menyediakan set lengkap alatan untuk mengendalikan data yang hilang dalam pelbagai konteks.

Kesimpulannya, artikel ini telah menunjukkan cara menggunakan imlak untuk menggantikan nilai yang hilang dalam Pandas DataFrame. Fungsi utama yang kami gunakan, fillna(), ialah alat yang berkuasa dalam pustaka Pandas yang membolehkan kami mengendalikan data yang hilang dengan cekap. Dengan memanfaatkan kamus, kami boleh memetakan nilai yang hilang kepada penggantian yang sesuai dan memastikan set data kami lengkap dan bermakna. Melalui pemahaman yang lebih mendalam tentang pustaka Pandas dan fungsi yang disertakan, kami boleh bekerja dengan set data yang besar dengan berkesan dan memperoleh cerapan berharga daripada data kami.

Related posts:

Tinggalkan komen