Zgjidhet: pandat mbushen prapa pas marrjes së mostrës

Në botën e sotme, manipulimi dhe analiza e të dhënave janë thelbësore për të kuptuar fenomene të ndryshme dhe për të marrë vendime të informuara. Një nga detyrat e zakonshme në analizën e të dhënave është ri-kampionimi i të dhënave të serive kohore, i cili përfshin ndryshimin e frekuencës së të dhënave, qoftë me ngritje të mostrës (duke rritur frekuencën) ose duke zbritur (duke ulur frekuencën). Në këtë artikull, ne do të diskutojmë procesin e mbushjes së prapambetur gjatë ngritjes së mostrave të të dhënave të serive kohore duke përdorur bibliotekën e fuqishme Python, Pandas.

Plotësoni prapa të dhënat e serive kohore

Kur ne kampionojmë të dhënat e serive kohore, ne rrisim frekuencën e pikave të të dhënave, gjë që zakonisht rezulton në vlerat që mungojnë për pikat e të dhënave të krijuara rishtazi. Për të plotësuar këto vlera që mungojnë, ne mund të përdorim një sërë metodash. Një metodë e tillë quhet mbushje prapa, i njohur edhe si mbushje e mbeturinave. Mbushja e prapambetur është procesi i plotësimit të vlerave që mungojnë me vlerën tjetër të disponueshme në serinë kohore.

Biblioteka e Pandave

Python's Biblioteka e pandave është një mjet thelbësor për manipulimin e të dhënave, duke ofruar një gamë të gjerë funksionesh për trajtimin e strukturave të të dhënave si DataFrames dhe të dhënat e serive kohore. Pandas ka veçori të integruara që e bëjnë të lehtë punën me të dhënat e serive kohore, të tilla si marrja e mostrave dhe plotësimi i vlerave që mungojnë, duke na mundësuar që të kryejmë me efikasitet mbushjen prapa pas marrjes së mostrës.

Zgjidhja: Mbushje prapa me panda

Për të demonstruar procesin e aplikimit të një mbushjeje prapa pas ngritjes së mostrës së të dhënave të serive kohore duke përdorur Panda, le të shqyrtojmë një shembull të thjeshtë. Ne do të fillojmë duke importuar bibliotekat e nevojshme dhe duke krijuar një grup të dhënash të serive kohore.

import pandas as pd
import numpy as np

# Create a sample time series dataset
date_rng = pd.date_range(start='2022-01-01', end='2022-01-10', freq='D')
data = np.random.randint(0, 100, size=(len(date_rng), 1))

df = pd.DataFrame(date_rng, columns=['date'])
df['value'] = data

Tani që kemi të dhënat tona të mostrës, do të vazhdojmë me marrjen e mostrave dhe aplikimin e metodës së mbushjes së prapambetur. Në këtë shembull, ne do të bëjmë mostër nga frekuenca ditore në një frekuencë për orë:

# Upsample the data to hourly frequency
df.set_index('date', inplace=True)
hourly_df = df.resample('H').asfreq()

# Apply the backward fill method to fill missing values
hourly_df.fillna(method='bfill', inplace=True)

Në kodin e mësipërm, ne fillimisht vendosëm kolonën 'data' si indeks dhe më pas rimodeluam të dhënat në një frekuencë për orë duke përdorur rimostrim () funksionin. DataFrame që rezulton ka vlera që mungojnë për shkak të frekuencës së rritur. Më pas kemi përdorur fillna () metodë me parametrin 'bfill' për të kryer një mbushje prapa vlerave që mungojnë.

Shpjegim hap pas hapi

Le të zbërthejmë kodin për ta kuptuar më mirë:

1. Ne fillimisht importuam bibliotekat Panda dhe NumPy:

   import pandas as pd
   import numpy as np
   

2. Ne krijuam një grup të dhënash mostër të serive kohore duke përdorur intervali_datë() funksion nga Pandat për të gjeneruar data ditore dhe vlera numerike të rastësishme:

   date_rng = pd.date_range(start='2022-01-01', end='2022-01-10', freq='D')
   data = np.random.randint(0, 100, size=(len(date_rng), 1))
   df = pd.DataFrame(date_rng, columns=['date'])
   df['value'] = data
   

3. Më pas, ne vendosëm kolonën 'data' si indeks dhe i rimodeluam të dhënat në një frekuencë për orë me rimostrim () asfreq () funksione:

   df.set_index('date', inplace=True)
   hourly_df = df.resample('H').asfreq()
   

4. Së fundi, ne plotësuam vlerat që mungojnë në DataFrame-në e ekzaminuar duke përdorur fillna () metodë me parametrin 'bfill' për mbushje prapa:

   hourly_df.fillna(method='bfill', inplace=True)
   

Përfundim

Në këtë artikull, ne kemi eksploruar procesin e mbushje prapa pas ngritjes së mostrës së të dhënave të serive kohore duke përdorur bibliotekën e fuqishme të Pandas në Python. Duke kuptuar dhe zbatuar këto teknika, ne mund të manipulojmë dhe analizojmë në mënyrë efikase të dhënat e serive kohore, duke zbuluar njohuri të vlefshme dhe duke marrë vendime të informuara.

Mesazhe të ngjashme:

Lini një koment