V tem članku bomo raziskali postopek dodajanja novega stolpca v Pandas DataFrame, priljubljeno knjižnico v Pythonu za obdelavo in analizo podatkov. Razpravljali bomo o rešitvi tega problema, šli skozi razlago kode po korakih in obravnavali nekatere povezane teme in funkcije v knjižnici Pandas. Pandas je široko uporabljena knjižnica s podatkovnimi strukturami in orodji na visoki ravni, kot nalašč za učinkovito analizo podatkov in opravila upravljanja.
Za začetek predpostavimo, da imamo nabor podatkov v obliki Pandas DataFrame in mu želimo dodati nov stolpec. To je pogosta zahteva v fazi priprave podatkov, ki je pogosto potrebna za inženiring funkcij ali za ustvarjanje dodatnih informacij na podlagi obstoječih stolpcev. Poglobimo se v to, kako je to mogoče doseči.
Dodajanje novega stolpca v Pandas DataFrame
Začeli bomo z uvozom zahtevane knjižnice in ustvarjanjem vzorčnega DataFrame.
import pandas as pd data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'], 'Age': [25, 28, 23, 22], 'City': ['NY', 'LA', 'SF', 'Chicago']} df = pd.DataFrame(data)
Zdaj pa dodajmo nov stolpec »Država« v naš DataFrame s privzeto vrednostjo, recimo »ZDA«.
df['Country'] = 'USA'
Ta preprosta vrstica kode bo našemu obstoječemu podatkovnemu okviru »df« dodala nov stolpec z imenom »Država« z vrednostjo »ZDA« v vseh njegovih vrsticah. Naš posodobljen DataFrame bi bil videti takole:
Name Age City Country 0 Alex 25 NY USA 1 Tom 28 LA USA 2 Nick 23 SF USA 3 Sam 22 Chicago USA
Razlaga kode po korakih
Razčlenimo kodo in jo razumemo korak za korakom.
1. Najprej uvozimo knjižnico Pandas s standardnim vzdevkom 'pd'. To nam omogoča dostop do funkcij in razredov Panda z uporabo predpone 'pd'.
import pandas as pd
2. Nato ustvarimo slovarske 'podatke', ki vsebujejo nekaj vzorčnih podatkov. Vsak ključ v slovarju predstavlja ime stolpca, njegova ustrezna vrednost pa je seznam vrednosti za ta stolpec.
data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'], 'Age': [25, 28, 23, 22], 'City': ['NY', 'LA', 'SF', 'Chicago']}
3. Ta slovar nato pretvorimo v objekt Pandas DataFrame z uporabo funkcije `pd.DataFrame()`.
df = pd.DataFrame(data)
4. Nazadnje, za dodajanje novega stolpca preprosto uporabimo operator dodelitve »=« z DataFrame, pri čemer zagotovimo novo ime stolpca v oglatih oklepajih in podamo privzeto vrednost. V našem primeru smo dodali stolpec »Država« s privzeto vrednostjo »ZDA«.
df['Country'] = 'USA'
Knjižnica Pandas in sorodne funkcije
Pandas je zmogljiva knjižnica Python, še posebej primerna za naloge obdelave, čiščenja in analize podatkov. Ponuja dve glavni podatkovni strukturi: DataFrame in Serija. DataFrame je dvodimenzionalna tabelarična podatkovna struktura z označenimi osmi (vrstice in stolpci). Po drugi strani pa je serija enodimenzionalno označeno polje, ki lahko vsebuje podatke katere koli vrste.
Nekatere pogoste funkcije Panda, povezane z dodajanjem, spreminjanjem in brisanjem stolpcev v DataFrame, so naslednje:
- vstavi(): Če želite vstaviti stolpec na določeno mesto.
- spusti(): Če želite odstraniti stolpec iz DataFrame.
- preimenuj(): Za preimenovanje stolpca DataFrame.
- dodeli(): Če želite ustvariti nov stolpec na podlagi rezultata izraza.
Torej je dodajanje novega stolpca v Pandas DataFrame preprosto in učinkovito. V tem članku smo obravnavali osnovno metodo dodajanja novega stolpca s privzeto vrednostjo in podali podrobna pojasnila za vključene korake. Predstavili smo tudi Pande kot zmogljivo knjižnico za obdelavo podatkov in razpravljali o nekaterih povezanih funkcijah za upravljanje stolpcev DataFrame. Z obvladovanjem teh tehnik boste dobro opremljeni za obvladovanje številnih nalog obdelave podatkov v Pythonu.