Tänapäeva maailmas on andmetega tegelemine muutunud oluliseks oskuseks nii arendajatele kui ka analüütikutele. Üks võimas raamatukogu, mis aitab andmete analüüsimisel, on pandas, mis on üles ehitatud Pythoni programmeerimiskeelele. Selles artiklis vaatleme, kuidas installida pandasid Pythonis kasutades Git, mõista raamatukogu tööd ja uurida erinevaid funktsioone, mis aitavad meie andmeanalüüsi ülesandeid täita. Niisiis, sukeldugem otse sellesse.
Pandade installimine Giti abil
Pandade installimiseks Giti abil peate esmalt kloonima pandade hoidla GitHubist oma kohalikku masinasse. Kui teil on hoidlast koopia, saate kõige õigeks seadistamiseks järgida alltoodud samme.
git clone git://github.com/pandas-dev/pandas.git cd pandas python -m venv venv source venv/bin/activate # On Windows use `venvScriptsactivate` pip install -e .
Ülaltoodud kood teeb järgmist:
- Kloonib pandade hoidla.
- Muudab praeguse kataloogi pandade kaustaks.
- Loob virtuaalse keskkonna nimega “venv”.
- Aktiveerib virtuaalse keskkonna.
- Installib pandad redigeeritavas režiimis, mis võimaldab teil lähtekoodi otse muuta.
Nüüd, kui pandad on Giti kaudu installitud, saame sellega Pythonis töötama hakata.
Pandadega alustamine
Pandade kasutamise alustamiseks peate importima teegi oma Pythoni koodis. Seda saate teha järgmise käsuga:
import pandas as pd
Kui pandad on nüüd imporditud, saate hakata töötama erinevas vormingus andmekogumitega, näiteks CSV-, Exceli- või SQL-andmebaasidega. Pandas kasutab andmete töötlemiseks kahte peamist andmestruktuuri: DataFrame ja Seeria.
DataFrame on märgistatud telgedega kahemõõtmeline tabel, seeria aga ühemõõtmeline märgistatud massiiv. Need andmestruktuurid võimaldavad teil teha oma andmetega erinevaid toiminguid ja analüüse.
Andmete laadimine ja uurimine
Pandade kasutamise demonstreerimiseks kaalume näidisandmestikku – CSV-faili, mis sisaldab üksikasju erinevate toodete, nende kategooriate ja hindade kohta. Saate faili laadida ja DataFrame'i luua järgmiselt:
data = pd.read_csv('products.csv')
DataFrame'i sisu vaatamiseks kasutage järgmist käsku:
print(data.head())
. pea () funktsioon tagastab DataFrame'i esimesed viis rida. Pandafunktsioonide abil saate teha ka muid toiminguid, nagu statistika arvutamine, andmete filtreerimine ja veergudega manipuleerimine.
Järeldus
Selle artikli kaudu õppisime, kuidas installige pandad Pythonis Giti abil ja uuris teegi põhikontseptsioone, nagu DataFrames ja Series. Lisaks õppisime pandafunktsioonide abil andmete laadimist ja uurimist. Nende põhikontseptsioonide abil on teil nüüd projektides andmeanalüüsi ülesannete täitmiseks vajalikud teadmised. Pandadega töötades uurige kindlasti selle võimsa raamatukogu pakutavate funktsioonide ja meetodite suurt hulka – andmemaailmas on alati rohkem õppida!