Solved: magdagdag ng bagong column sa pandas dataframe

Sa artikulong ito, tutuklasin natin ang proseso ng pagdaragdag ng bagong column sa isang Pandas DataFrame, isang sikat na library sa Python para sa pagmamanipula at pagsusuri ng data. Tatalakayin natin ang solusyon sa problemang ito, dumaan sa sunud-sunod na paliwanag ng code, at saklawin ang ilang nauugnay na paksa at function sa library ng Pandas. Ang Pandas ay isang malawakang ginagamit na library na nagtatampok ng mataas na antas ng mga istruktura at tool ng data, perpekto para sa mahusay na pagsusuri ng data at paghawak ng mga gawain.

Upang magsimula, ipagpalagay natin na mayroon tayong dataset sa anyo ng Pandas DataFrame at gusto naming magdagdag ng bagong column dito. Ito ay karaniwang kinakailangan sa yugto ng paghahanda ng data, kadalasang kailangan para sa feature engineering o para makabuo ng karagdagang impormasyon batay sa mga kasalukuyang column. Suriin natin kung paano ito makakamit.

Pagdaragdag ng bagong column sa isang Pandas DataFrame

Magsisimula kami sa pamamagitan ng pag-import ng kinakailangang library at paggawa ng sample na DataFrame.

import pandas as pd

data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
        'Age': [25, 28, 23, 22],
        'City': ['NY', 'LA', 'SF', 'Chicago']}

df = pd.DataFrame(data)

Ngayon, magdagdag tayo ng bagong column na 'Bansa' sa aming DataFrame na may default na halaga, sabihin ang 'USA'.

df['Country'] = 'USA'

Ang simpleng linya ng code na ito ay magdaragdag ng bagong column na pinangalanang 'Bansa' sa aming umiiral na DataFrame 'df' na may halagang 'USA' sa lahat ng row nito. Magiging ganito ang hitsura ng aming na-update na DataFrame:

  Name  Age     City Country
0  Alex   25      NY     USA
1   Tom   28      LA     USA
2  Nick   23      SF     USA
3   Sam   22  Chicago     USA

Step-by-step na paliwanag ng code

Hatiin natin ang code at unawain ito nang sunud-sunod.

1. Una, ini-import namin ang library ng Pandas gamit ang karaniwang alias 'pd'. Nagbibigay-daan ito sa amin na ma-access ang mga function at klase ng Pandas gamit ang prefix na 'pd'.

import pandas as pd

2. Susunod, gumawa kami ng diksyunaryo na 'data' na naglalaman ng ilang sample na data. Ang bawat key sa diksyunaryo ay kumakatawan sa pangalan ng column, at ang katumbas na halaga nito ay isang listahan ng mga value para sa column na iyon.

data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
        'Age': [25, 28, 23, 22],
        'City': ['NY', 'LA', 'SF', 'Chicago']}

3. Iko-convert namin ang diksyunaryong ito sa isang object ng Pandas DataFrame gamit ang function na `pd.DataFrame()`.

df = pd.DataFrame(data)

4. Panghuli, upang magdagdag ng bagong column, ginagamit lang namin ang assignment operator na “=” kasama ang DataFrame, na nagbibigay ng bagong pangalan ng column sa loob ng mga square bracket at tinutukoy ang default na halaga. Sa aming kaso, idinagdag namin ang column na 'Bansa' na may default na halaga na 'USA'.

df['Country'] = 'USA'

Pandas library at mga kaugnay na function

Ang Pandas ay isang malakas na library ng Python, partikular na angkop para sa pagpoproseso ng data, paglilinis at pagsusuri ng mga gawain. Nagbibigay ito ng dalawang pangunahing istruktura ng data: Balangkas ng mga datos at Serye. Ang DataFrame ay isang two-dimensional na tabular na istraktura ng data na may mga label na axes (mga row at column). Ang Serye, sa kabilang banda, ay isang one-dimensional na may label na array na may kakayahang maghawak ng data ng anumang uri.

Ang ilang karaniwang mga function ng Panda na nauugnay sa pagdaragdag, pagbabago at pagtanggal ng mga column sa isang DataFrame ay ang mga sumusunod:

  • ipasok (): Upang magpasok ng isang column sa isang tinukoy na posisyon.
  • drop(): Upang alisin ang isang column mula sa DataFrame.
  • palitan ang pangalan(): Upang palitan ang pangalan ng column ng DataFrame.
  • italaga(): Upang lumikha ng bagong column batay sa resulta ng isang expression.

Kaya, ang pagdaragdag ng bagong column sa isang Pandas DataFrame ay simple at mahusay. Sa artikulong ito, tinakpan namin ang pangunahing paraan ng pagdaragdag ng bagong column na may default na halaga at nagbigay ng mga detalyadong paliwanag para sa mga hakbang na kasangkot. Ipinakilala rin namin ang mga Panda bilang isang mahusay na library ng pagmamanipula ng data at tinalakay ang ilang nauugnay na function para sa pamamahala ng mga column ng DataFrame. Sa pamamagitan ng pag-master ng mga diskarteng ito, magiging handa ka nang husto upang pangasiwaan ang malawak na hanay ng mga gawain sa pagpoproseso ng data sa Python.

Kaugnay na mga post:

Mag-iwan ng komento