A divat és a programozás két teljesen különböző világnak tűnhet, de ha adatelemzésről és trend-előrejelzésről van szó, akkor ezek szépen összeérnek. Ebben a cikkben a divatipar adatelemzésének egy gyakori problémáját fogjuk feltárni: adott napok kihagyását a pandák dátum- és dátumadataiból. Ez különösen hasznos lehet a minták, trendek és értékesítési adatok elemzésekor. Lépésről lépésre végignézzük a kódot, és megvitatjuk azokat a különböző könyvtárakat és funkciókat, amelyek segítenek elérni célunkat.
Pandák és dátumidő a divatban
A Pandas egy népszerű Python-könyvtár, amelyet elsősorban adatelemzésre és -kezelésre használnak. A divat világában hatalmas mennyiségű adat átvizsgálására használható trendek azonosítására, a vásárlói preferenciák elemzésére és a jövőbeli minták előrejelzésére. A Pandas támogatja a dátum-idő funkciót, lehetővé téve számunkra, hogy könnyedén dolgozzunk a dátumokkal és időpontokkal.
Sok esetben bizonyos napokat vagy naptartományokat ki kell hagyni az adatkészletünkből. Például előfordulhat, hogy ki szeretnénk zárni a hétvégéket vagy ünnepnapokat, hogy a fontos akciós napokra összpontosíthassunk, mint például a fekete péntek vagy a kiberhétfő.
A probléma megértése
Tegyük fel, hogy van egy adatkészletünk, amely CSV formátumban tartalmazza a napi értékesítési adatokat, és a hétvégék kizárásával szeretnénk elemezni az információkat. Ennek eléréséhez kezdjük azzal importálja az adatkészletet pandák használatával, majd manipuláljuk az adatokat a hétvégék eltávolításához.
Íme a lépésenkénti folyamat:
1. Importálja a szükséges könyvtárakat.
2. Töltse be az adatkészletet.
3. Alakítsa át a dátum oszlopot datetime formátumra (ha még nincs ebben a formátumban).
4. Szűrje le az adatkeretet a hétvégék kizárásához.
5. Elemezze a szűrt adatokat.
Jegyzet: Ez a módszer bármely adatkészletre alkalmazható, ahol a dátum külön oszlopban van tárolva.
# Step 1: Import the necessary libraries import pandas as pd from pandas.tseries.offsets import BDay # Step 2: Load the dataset data = pd.read_csv('sales_data.csv') # Step 3: Convert the date column to datetime format data['date'] = pd.to_datetime(data['date']) # Step 4: Filter the dataframe to exclude weekends filtered_data = data[data['date'].dt.dayofweek < 5] # Step 5: Analyze the filtered data print(filtered_data.head())
A kódex értelmezése
A fenti kódblokkban két alapvető könyvtár importálásával kezdjük: a pandas és a BDay (munkanap) a pandas.tseries.offsets fájlból. Az adatkészletet a panda függvény segítségével töltjük be read_csv, és győződjön meg arról, hogy a dátum oszlop dátum és idő formátumban van.
A dt.dayofweek Az attribútum a hét napját egész számként adja vissza (hétfő: 0, vasárnap: 6). A hétvégék kiszűréséhez csak azokat a sorokat tartjuk meg, amelyeknek a dayofweek értéke kisebb, mint 5.
Végül elemezzük a szűrt adatokat úgy, hogy az első néhány sort kinyomtatjuk a fej() funkciót.
További funkciók és könyvtárak
Ez a módszer tovább bővíthető más szűrési feltételekkel, vagy különböző dátumtartományokkal. Néhány hasznos könyvtár és funkció, amelyek támogatják ezt a folyamatot:
- NumPy: Python numerikus számításokhoz használható könyvtár, amely hatékony tömbkezelésre és matematikai műveletekre használható.
- Dátum idő: A Python szabványos könyvtárának modulja, amely segít a dátumok és időpontok egyszerű kezelésében.
- időintervallum: A pandákon belüli funkció, amely lehetővé teszi számunkra, hogy dátumtartományt hozzunk létre különböző gyakorisági beállítások szerint, például munkanapok, hetek vagy hónapok szerint.
Ha ezeket az eszközöket és technikákat a pandákkal és a dátumidő-manipulációval együtt használja, robusztus adatelemzési munkafolyamatokat hozhat létre, amelyek megfelelnek a divatipar speciális igényeinek, például a trendek, a vásárlói preferenciák és az értékesítési teljesítmény azonosítására.