Đã giải quyết: thêm nhiều cột vào khung dữ liệu nếu không tồn tại pandas

Pandas là một thư viện Python mã nguồn mở cung cấp các cấu trúc dữ liệu hiệu suất cao, dễ sử dụng và các công cụ phân tích dữ liệu. Nó đã trở thành lựa chọn hàng đầu cho các nhà phát triển và nhà khoa học dữ liệu khi thao tác và phân tích dữ liệu. Một trong những tính năng mạnh mẽ do Pandas cung cấp là tạo và sửa đổi các khung dữ liệu. Trong bài viết này, chúng ta sẽ khám phá quy trình thêm nhiều cột vào khung dữ liệu nếu chúng không tồn tại, sử dụng thư viện gấu trúc. Chúng tôi sẽ giải thích từng bước về mã và đi sâu vào các chức năng, thư viện và sự cố liên quan mà bạn có thể gặp phải trong quá trình thực hiện.

Làm việc với các khung dữ liệu là rất quan trọng khi xử lý dữ liệu và thường thì bạn có thể thấy mình trong tình huống cần thêm nhiều cột cùng một lúc vào một khung dữ liệu. Điều này có thể phức tạp, nhưng thư viện Pandas làm cho nhiệm vụ này trơn tru và hiệu quả. Trước tiên, hãy bắt đầu bằng cách nhập thư viện Pandas:

import pandas as pd

Thêm nhiều cột vào Pandas Dataframe

Để thêm nhiều cột vào một khung dữ liệu, chúng ta có thể sử dụng phương thức DataFrame.assign(). Phương pháp này cho phép chúng tôi thêm một hoặc một số cột vào khung dữ liệu cùng một lúc. Hãy tạo một khung dữ liệu mẫu và sau đó thêm nhiều cột vào đó nếu chúng chưa tồn tại:

# Create a sample dataframe
data = {'column1': [1, 2, 3], 'column2': [4, 5, 6]}
df = pd.DataFrame(data)

# Add multiple columns if they do not exist
new_columns = ['column3', 'column4']
for new_col in new_columns:
    if new_col not in df.columns:
        df[new_col] = None

Trong tạp chí đoạn mã trên, trước tiên chúng tôi tạo một khung dữ liệu mẫu có hai cột, 'column1' và 'column2'. Sau đó, chúng tôi tạo danh sách các cột mới, 'cột3' và 'cột4' mà chúng tôi muốn thêm vào khung dữ liệu. Cuối cùng, chúng tôi lặp qua danh sách các cột và thêm một cột mới nếu nó chưa tồn tại trong khung dữ liệu.

Giải thích từng bước

Đây là một bước từng bước giải thích từng phần giải pháp của chúng tôi:

1. Chúng tôi bắt đầu bằng cách nhập thư viện Pandas bằng cách sử dụng “nhập gấu trúc dưới dạng pd”.
2. Tiếp theo, chúng tôi tạo một khung dữ liệu mẫu có tên là 'df' với hai cột: 'cột1' và 'cột2'.
3. Chúng tôi tạo một danh sách các cột mới mà chúng tôi muốn thêm vào khung dữ liệu – 'cột3' và 'cột4'.
4. Chúng tôi sử dụng vòng lặp for để duyệt qua danh sách các cột mới.
5. Trong vòng lặp, chúng tôi kiểm tra xem cột mới đã tồn tại trong khung dữ liệu hay chưa bằng cách sử dụng điều kiện 'không có trong'. Nếu cột mới không tồn tại, chúng tôi thêm cột mới vào khung dữ liệu với giá trị mặc định là Không có.

Hàm và thư viện Pandas

Pandas cung cấp một loạt các chức năng và phương pháp giúp đơn giản hóa việc xử lý và thao tác trên các khung dữ liệu. Trong giải pháp của mình, chúng tôi đã sử dụng các thành phần chính sau:

  • Khung dữ liệu – Là cấu trúc dữ liệu chính trong gấu trúc, DataFrame là dữ liệu dạng bảng hai chiều, có thể thay đổi, có khả năng không đồng nhất với các trục được gắn nhãn (hàng và cột)
  • DataFrame.column – Thuộc tính này trả về các nhãn cột của DataFrame, cho phép chúng tôi truy cập và xác minh xem một cột có tồn tại hay không.
  • pd.DataFrame () – Đây là chức năng xây dựng để tạo một khung dữ liệu mới. Nó cho phép bạn xác định dữ liệu và tên cột trong quá trình tạo.

Bây giờ bạn đã hiểu rõ hơn về cách thêm nhiều cột đối với khung dữ liệu Pandas, kỹ thuật này sẽ giúp bạn quản lý và thao tác dữ liệu một cách hiệu quả. Hãy nhớ rằng Pandas cung cấp nhiều tính năng mạnh mẽ khác để phân tích và thao tác dữ liệu, vì vậy hãy chắc chắn khám phá chúng để trở thành một nhà phát triển Python hiệu quả hơn.

bài viết liên quan:

Để lại một bình luận