Đã giải quyết: lấy số lượng giá trị còn thiếu trong pandas

Pandas là một thư viện thao tác dữ liệu nguồn mở được sử dụng rộng rãi cho Python. Nó cung cấp các cấu trúc dữ liệu và chức năng cần thiết để thao tác và phân tích hiệu quả các tập dữ liệu lớn. Một vấn đề phổ biến mà các nhà khoa học và nhà phân tích dữ liệu gặp phải khi sử dụng gấu trúc là xử lý các giá trị bị thiếu trong tập dữ liệu. Trong bài viết này, chúng ta sẽ khám phá cách đếm số lượng giá trị bị thiếu trong DataFrame của gấu trúc bằng nhiều kỹ thuật khác nhau, giải thích từng bước về mã và tìm hiểu sâu hơn về một số thư viện và chức năng liên quan đến việc giải quyết vấn đề này.

Đếm các giá trị còn thiếu trong Pandas

Để bắt đầu, trước tiên chúng ta cần nhập thư viện gấu trúc. Nếu bạn chưa cài đặt nó, chỉ cần chạy lệnh `pip install pandas` trong thiết bị đầu cuối hoặc dấu nhắc lệnh của bạn.

import pandas as pd

Khi chúng tôi đã nhập thư viện gấu trúc, hãy tạo một DataFrame mẫu với các giá trị bị thiếu, chúng tôi sẽ sử dụng chúng trong suốt bài viết này để trình bày các kỹ thuật đếm giá trị bị thiếu khác nhau.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Trong ví dụ này, chúng ta có một DataFrame với ba cột: Tên, Tuổi và Thành phố. Có một số giá trị bị thiếu, chúng tôi sẽ tìm và tính trong phần tiếp theo.

Tìm và đếm các giá trị bị thiếu bằng isnull() và sum()

Phương pháp đầu tiên để đếm các giá trị bị thiếu trong DataFrame của gấu trúc là sử dụng isnull () chức năng. Hàm này trả về một Khung dữ liệu có cùng hình dạng với khung gốc, nhưng với các giá trị Đúng hoặc Sai cho biết mục nhập tương ứng có bị thiếu (nghĩa là có chứa Không có hoặc NaN) hay không.

missing_values = df.isnull()

Bây giờ chúng tôi có một Khung dữ liệu có cùng hình dạng, với các giá trị True biểu thị các mục bị thiếu. Để đếm những giá trị còn thiếu này, chúng ta chỉ cần sử dụng Tổng() chức năng. Bằng cách sử dụng nó trên DataFrame, chúng tôi có thể nhận được số lượng giá trị bị thiếu cho mỗi cột.

count_missing_values = df.isnull().sum()

Điều này sẽ cung cấp cho chúng tôi Sê-ri gấu trúc với số lượng giá trị bị thiếu cho mỗi cột trong Khung dữ liệu của chúng tôi.

Phương pháp thay thế: Sử dụng isna() và sum()

Một cách tiếp cận khác để đếm các giá trị bị thiếu trong DataFrame của gấu trúc là sử dụng isna() chức năng. Đó là bí danh cho isnull() và hoạt động theo cách tương tự.

count_missing_values = df.isna().sum()

Điều này sẽ cho kết quả giống như cách tiếp cận trước đó, đếm số lượng giá trị bị thiếu cho mỗi cột trong Khung dữ liệu của chúng tôi.

Đếm các giá trị còn thiếu trong toàn bộ khung dữ liệu

Nếu chúng tôi muốn tìm tổng số giá trị bị thiếu trong toàn bộ Khung dữ liệu, chúng tôi chỉ cần xâu chuỗi một giá trị khác Tổng() sau hàm sum() đầu tiên.

total_missing_values = df.isnull().sum().sum()

Điều này sẽ trả về tổng số giá trị bị thiếu trong toàn bộ Khung dữ liệu.

Tóm lại, xử lý các giá trị bị thiếu trong gấu trúc là một bước quan trọng trong giai đoạn làm sạch và xử lý trước dữ liệu. Bằng cách sử dụng các hàm isnull() hoặc isna(), kết hợp với hàm sum(), chúng ta có thể đếm số lượng giá trị bị thiếu trong DataFrame một cách hiệu quả, giúp việc giải quyết và quản lý các vấn đề về dữ liệu bị thiếu trong phân tích của chúng ta trở nên dễ dàng hơn.

bài viết liên quan:

Để lại một bình luận