Çözüldü: pandalarda eksik değerlerin sayısını alma

Pandas, Python için yaygın olarak kullanılan açık kaynaklı bir veri işleme kitaplığıdır. Büyük veri kümelerini etkili bir şekilde işlemek ve analiz etmek için gereken veri yapılarını ve işlevleri sağlar. Veri bilimcilerin ve analistlerin pandaları kullanırken karşılaştıkları yaygın sorunlardan biri, veri kümesindeki eksik değerleri ele almaktır. Bu makalede, çeşitli teknikler kullanarak bir pandas DataFrame'deki eksik değerlerin sayısını nasıl hesaplayacağımızı, kodun adım adım açıklamalarını keşfedeceğiz ve bu sorunu çözmede yer alan bazı kitaplıklara ve işlevlere daha derinlemesine bakacağız.

Pandalarda Eksik Değerleri Saymak

Başlamak için önce pandas kitaplığını içe aktarmamız gerekiyor. Henüz yüklemediyseniz, terminalinizde veya komut isteminizde `pip install pandas` komutunu çalıştırmanız yeterlidir.

import pandas as pd

Pandalar kitaplığını içe aktardıktan sonra, bu makale boyunca eksik değerleri saymanın farklı tekniklerini göstermek için kullanacağımız, eksik değerlere sahip örnek bir DataFrame oluşturalım.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Bu örnekte, üç sütunlu bir DataFrame'imiz var: Ad, Yaş ve Şehir. Bir sonraki bölümde bulacağımız ve sayacağımız bazı eksik değerler var.

isnull() ve sum() kullanarak Eksik Değerleri Bulma ve Sayma

Bir pandas DataFrame'deki eksik değerleri saymanın ilk yöntemi, boş() işlev. Bu işlev, orijinalle aynı şekle sahip bir DataFrame döndürür, ancak True veya False değerleri karşılık gelen girişin eksik olup olmadığını (örn. Yok veya NaN içerir) gösterir.

missing_values = df.isnull()

Artık aynı şekle sahip bir DataFrame'imiz var ve True değerleri eksik girişleri gösteriyor. Bu eksik değerleri saymak için basitçe toplam() işlev. DataFrame üzerinden kullanarak, her sütun için eksik değer sayısını alabiliriz.

count_missing_values = df.isnull().sum()

Bu bize DataFrame'deki her sütun için eksik değerlerin sayısını içeren bir pandalar Serisi verecektir.

Alternatif Yaklaşım: isna() ve sum() kullanma

Bir pandas DataFrame'deki eksik değerleri saymak için başka bir yaklaşım, isna() işlev. isnull() için bir diğer addır ve aynı şekilde çalışır.

count_missing_values = df.isna().sum()

Bu, DataFrame'imizdeki her sütun için eksik değerlerin sayısını sayarak önceki yaklaşımla aynı sonucu verecektir.

Tüm DataFrame'deki Eksik Değerleri Sayma

Tüm DataFrame'deki eksik değerlerin toplam sayısını bulmak istiyorsak, basitçe başka bir tanesini zincirleyebiliriz. toplam() ilk sum() işlevinden sonra işlev.

total_missing_values = df.isnull().sum().sum()

Bu, DataFrame'in tamamındaki toplam eksik değer sayısını döndürür.

Özetle, pandalardaki eksik değerleri işlemek, veri temizleme ve ön işleme aşamasında çok önemli bir adımdır. isnull() veya isna() işlevlerini sum() işleviyle birlikte kullanarak, DataFrame'deki eksik değerleri verimli bir şekilde sayabiliriz, bu da analizimizde eksik veri sorunlarının ele alınmasını ve yönetilmesini kolaylaştırır.

İlgili Mesajlar:

Leave a Comment