Đã giải quyết: cách bỏ qua ngày pandas datetime

Thời trang và lập trình có vẻ như là hai thế giới hoàn toàn khác biệt, nhưng khi phân tích dữ liệu và dự báo xu hướng, chúng có thể kết hợp với nhau một cách tuyệt vời. Trong bài viết này, chúng ta sẽ khám phá một vấn đề phổ biến khi phân tích dữ liệu trong ngành thời trang: bỏ qua các ngày cụ thể khỏi dữ liệu ngày giờ của gấu trúc. Điều này có thể đặc biệt hữu ích khi phân tích các mẫu, xu hướng và dữ liệu bán hàng. Chúng tôi sẽ giải thích từng bước về mã và thảo luận về các thư viện và chức năng khác nhau sẽ giúp chúng tôi đạt được mục tiêu của mình.

Pandas và Datetime trong thời trang

Pandas là một thư viện Python phổ biến chủ yếu được sử dụng để phân tích và thao tác dữ liệu. Trong thế giới thời trang, nó có thể được sử dụng để sàng lọc lượng dữ liệu khổng lồ nhằm xác định xu hướng, phân tích sở thích của khách hàng và dự đoán các mẫu trong tương lai. Pandas hỗ trợ chức năng ngày giờ, cho phép chúng tôi làm việc với ngày và giờ một cách dễ dàng.

Trong nhiều trường hợp, cần phải bỏ qua các ngày hoặc phạm vi ngày cụ thể khỏi tập dữ liệu của chúng tôi. Ví dụ: chúng tôi có thể muốn loại trừ các ngày cuối tuần hoặc ngày lễ để tập trung vào những ngày giảm giá quan trọng, như Thứ Sáu Đen hoặc Thứ Hai Điện Tử.

Hiểu vấn đề

Giả sử chúng ta có tập dữ liệu chứa dữ liệu bán hàng hàng ngày ở định dạng CSV và chúng ta muốn phân tích thông tin trong khi loại trừ các ngày cuối tuần. Để đạt được điều này, chúng ta sẽ bắt đầu bằng cách nhập tập dữ liệu bằng gấu trúc, sau đó chúng tôi sẽ thao tác dữ liệu để xóa các ngày cuối tuần.

Đây là quy trình từng bước:

1. Nhập các thư viện cần thiết.
2. Tải tập dữ liệu.
3. Chuyển cột ngày sang định dạng ngày giờ (nếu chưa có định dạng đó).
4. Lọc khung dữ liệu để loại trừ các ngày cuối tuần.
5. Phân tích dữ liệu đã lọc.

Lưu ý: Phương pháp này có thể được áp dụng cho bất kỳ tập dữ liệu nào có ngày được lưu trữ trong một cột riêng biệt.

# Step 1: Import the necessary libraries
import pandas as pd
from pandas.tseries.offsets import BDay

# Step 2: Load the dataset
data = pd.read_csv('sales_data.csv')

# Step 3: Convert the date column to datetime format
data['date'] = pd.to_datetime(data['date'])

# Step 4: Filter the dataframe to exclude weekends
filtered_data = data[data['date'].dt.dayofweek < 5]

# Step 5: Analyze the filtered data
print(filtered_data.head())

Giải thích mã

Trong khối mã ở trên, chúng tôi bắt đầu bằng cách nhập hai thư viện cần thiết: pandas và BDay (ngày làm việc) từ pandas.tseries.offsets. Chúng tôi tải tập dữ liệu bằng chức năng gấu trúc đọc_csvvà đảm bảo cột ngày ở định dạng ngày giờ.

Sản phẩm dt.dayofweek thuộc tính trả về ngày trong tuần dưới dạng số nguyên (Thứ hai: 0, Chủ nhật: 6). Để lọc ra các ngày cuối tuần, chúng tôi chỉ giữ các hàng có giá trị dayofweek nhỏ hơn 5.

Cuối cùng, chúng tôi phân tích dữ liệu được lọc bằng cách in một vài hàng đầu tiên bằng cách sử dụng cái đầu() chức năng.

Các chức năng và thư viện bổ sung

Phương pháp này có thể được mở rộng hơn nữa để bao gồm các tiêu chí lọc khác hoặc để hoạt động với các phạm vi ngày khác nhau. Một số thư viện và chức năng hữu ích có thể hỗ trợ quá trình này bao gồm:

  • NumPy: Một thư viện để tính toán số bằng Python, có thể được sử dụng để thao tác mảng và các phép toán hiệu quả.
  • Ngày giờ: Một module trong thư viện chuẩn của Python giúp chúng ta làm việc với ngày tháng và thời gian một cách dễ dàng.
  • phạm vi ngày: Một chức năng trong gấu trúc cho phép chúng tôi tạo phạm vi ngày theo các cài đặt tần suất khác nhau, chẳng hạn như ngày làm việc, tuần hoặc tháng.

Bằng cách tận dụng các công cụ và kỹ thuật này cùng với gấu trúc và thao tác ngày giờ, bạn có thể tạo quy trình phân tích dữ liệu mạnh mẽ đáp ứng các nhu cầu cụ thể của ngành thời trang, chẳng hạn như xác định xu hướng, sở thích của khách hàng và hiệu suất bán hàng.

bài viết liên quan:

Để lại một bình luận