Tässä artikkelissa tutkimme uuden sarakkeen lisäämisprosessia Pandas DataFrameen, joka on suosittu Pythonin kirjasto tietojen käsittelyä ja analysointia varten. Keskustelemme tämän ongelman ratkaisusta, käymme läpi vaiheittaisen selityksen koodista ja käsittelemme joitain asiaan liittyviä aiheita ja toimintoja Pandas-kirjastossa. Pandas on laajalti käytetty kirjasto, jossa on korkean tason tietorakenteita ja työkaluja, jotka sopivat täydellisesti tehokkaaseen tiedon analysointiin ja käsittelyyn.
Oletetaan aluksi, että meillä on tietojoukko Pandas DataFrame -kehyksen muodossa ja haluamme lisätä siihen uuden sarakkeen. Tämä on yleinen vaatimus tietojen valmisteluvaiheessa, ja sitä tarvitaan usein ominaisuussuunnittelussa tai lisätietojen tuottamisessa olemassa olevien sarakkeiden perusteella. Sukellaanpa siihen, kuinka tämä voidaan saavuttaa.
Uuden sarakkeen lisääminen Pandas DataFrameen
Aloitamme tuomalla vaaditun kirjaston ja luomalla näytetietokehyksen.
import pandas as pd data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'], 'Age': [25, 28, 23, 22], 'City': ['NY', 'LA', 'SF', 'Chicago']} df = pd.DataFrame(data)
Lisätään nyt uusi sarake "Maa" DataFrame-kehykseemme oletusarvolla, sano "USA".
df['Country'] = 'USA'
Tämä yksinkertainen koodirivi lisää uuden sarakkeen nimeltä "Maa" nykyiseen DataFrame-kehykseemme "df", jonka kaikilla riveillä on arvo "USA". Päivitetty DataFrame näyttää tältä:
Name Age City Country 0 Alex 25 NY USA 1 Tom 28 LA USA 2 Nick 23 SF USA 3 Sam 22 Chicago USA
Vaiheittainen koodin selitys
Puretaan koodi ja ymmärretään se askel askeleelta.
1. Ensin tuomme Pandas-kirjaston käyttämällä standardialiasta 'pd'. Tämä antaa meille mahdollisuuden käyttää Pandas-funktioita ja -luokkia käyttämällä 'pd'-etuliitettä.
import pandas as pd
2. Seuraavaksi luomme sanakirjan "data", joka sisältää joitakin esimerkkitietoja. Jokainen sanakirjan avain edustaa sarakkeen nimeä, ja sitä vastaava arvo on luettelo kyseisen sarakkeen arvoista.
data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'], 'Age': [25, 28, 23, 22], 'City': ['NY', 'LA', 'SF', 'Chicago']}
3. Muunnamme tämän sanakirjan sitten Pandas DataFrame -objektiksi käyttämällä pd.DataFrame()-funktiota.
df = pd.DataFrame(data)
4. Lopuksi, lisätäksesi uuden sarakkeen, käytämme yksinkertaisesti määritysoperaattoria “=” DataFrame-kehyksen kanssa, lisäämällä uuden sarakkeen nimen hakasulkeisiin ja määrittämällä oletusarvon. Meidän tapauksessamme lisäsimme "Maa" -sarakkeen oletusarvolla "USA".
df['Country'] = 'USA'
Pandas-kirjasto ja siihen liittyvät toiminnot
Pandas on tehokas Python-kirjasto, joka sopii erityisesti tietojenkäsittely-, puhdistus- ja analysointitehtäviin. Se tarjoaa kaksi päätietorakennetta: Datakehys ja Sarjat. DataFrame on kaksiulotteinen taulukkomuotoinen tietorakenne, jossa on nimetyt akselit (rivit ja sarakkeet). Sarja puolestaan on yksiulotteinen merkitty taulukko, joka pystyy säilyttämään kaiken tyyppisiä tietoja.
Joitakin yleisiä Panda-toimintoja, jotka liittyvät sarakkeiden lisäämiseen, muokkaamiseen ja poistamiseen DataFramessa, ovat seuraavat:
- insert(): Sarakkeen lisääminen tiettyyn kohtaan.
- pudota(): Sarakkeen poistaminen DataFramesta.
- nimeä uudelleen(): DataFramen sarakkeen nimeäminen uudelleen.
- assign(): Uuden sarakkeen luominen lausekkeen tuloksen perusteella.
Joten uuden sarakkeen lisääminen Pandas DataFrame -kehykseen on yksinkertaista ja tehokasta. Tässä artikkelissa olemme käsitelleet perusmenetelmää uuden sarakkeen lisäämiseksi oletusarvolla ja toimittaneet yksityiskohtaiset selitykset asiaan liittyvistä vaiheista. Olemme myös esitelleet Pandat tehokkaana tietojenkäsittelykirjastona ja keskustelleet muutamista DataFrame-sarakkeiden hallintaan liittyvistä toiminnoista. Kun hallitset nämä tekniikat, sinulla on hyvät valmiudet käsitellä monenlaisia tietojenkäsittelytehtäviä Pythonissa.