Megoldva: új oszlop hozzáadása a pandák adatkeretéhez

Ebben a cikkben megvizsgáljuk egy új oszlop hozzáadásának folyamatát a Pandas DataFrame-hez, amely egy népszerű Python-könyvtár adatkezelésre és -elemzésre. Megvitatjuk a probléma megoldását, végigmegyünk a kód lépésről lépésre történő magyarázatán, és kitérünk néhány kapcsolódó témakörre és funkcióra a Pandas könyvtárban. A Pandas egy széles körben használt könyvtár, amely magas szintű adatstruktúrákat és eszközöket tartalmaz, amelyek tökéletesek a hatékony adatelemzési és -kezelési feladatokhoz.

Először is tegyük fel, hogy van egy adatkészletünk Pandas DataFrame formájában, és új oszlopot szeretnénk hozzáadni hozzá. Ez gyakori követelmény az adat-előkészítési szakaszban, gyakran szükséges a jellemzők tervezéséhez vagy a meglévő oszlopok alapján további információk generálásához. Nézzük meg, hogyan érhető el ez.

Új oszlop hozzáadása egy Pandas DataFrame-hez

Kezdjük a szükséges könyvtár importálásával és egy minta DataFrame létrehozásával.

import pandas as pd

data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
        'Age': [25, 28, 23, 22],
        'City': ['NY', 'LA', 'SF', 'Chicago']}

df = pd.DataFrame(data)

Most adjunk hozzá egy új „Ország” oszlopot a DataFrame-ünkhöz alapértelmezett értékkel, mondjuk „USA”.

df['Country'] = 'USA'

Ez az egyszerű kódsor egy új „Ország” nevű oszlopot ad a meglévő „df” DataFrame-ünkhöz, amelynek minden sorában az „USA” érték szerepel. A frissített DataFrame-ünk így nézne ki:

  Name  Age     City Country
0  Alex   25      NY     USA
1   Tom   28      LA     USA
2  Nick   23      SF     USA
3   Sam   22  Chicago     USA

Lépésről lépésre kódmagyarázat

Bontsuk fel a kódot és értsük meg lépésről lépésre.

1. Először is importáljuk a Pandas könyvtárat a szabványos 'pd' álnévvel. Ez lehetővé teszi számunkra, hogy a 'pd' előtag használatával elérjük a Pandas függvényeket és osztályokat.

import pandas as pd

2. Ezután létrehozunk egy szótár „adatokat”, amely néhány mintaadatot tartalmaz. A szótárban minden kulcs egy oszlopnevet jelöl, a hozzá tartozó értéke pedig az adott oszlop értékeinek listája.

data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
        'Age': [25, 28, 23, 22],
        'City': ['NY', 'LA', 'SF', 'Chicago']}

3. Ezután ezt a szótárt a `pd.DataFrame()' függvény segítségével Pandas DataFrame objektummá alakítjuk.

df = pd.DataFrame(data)

4. Végül egy új oszlop hozzáadásához egyszerűen használjuk a „=” hozzárendelési operátort a DataFrame-mel, szögletes zárójelben megadva az új oszlopnevet, és megadva az alapértelmezett értéket. Esetünkben az "Ország" oszlopot az "USA" alapértelmezett értékkel adtuk hozzá.

df['Country'] = 'USA'

Pandas könyvtár és a kapcsolódó funkciók

A Pandas egy erőteljes Python könyvtár, amely különösen alkalmas adatfeldolgozási, tisztítási és elemzési feladatokra. Két fő adatstruktúrát biztosít: DataFrame és a Series of. A DataFrame egy kétdimenziós táblázatos adatstruktúra címkézett tengelyekkel (sorokkal és oszlopokkal). Az A Series viszont egy egydimenziós címkézett tömb, amely bármilyen típusú adat tárolására képes.

A DataFrame oszlopok hozzáadásával, módosításával és törlésével kapcsolatos néhány gyakori Pandas funkció a következő:

  • insert(): Oszlop beszúrása egy megadott helyre.
  • csepp(): Oszlop eltávolítása a DataFrame-ből.
  • átnevezés(): DataFrame oszlopának átnevezése.
  • hozzárendelni(): Új oszlop létrehozása egy kifejezés eredménye alapján.

Tehát egy új oszlop hozzáadása egy Pandas DataFrame-hez egyszerű és hatékony. Ebben a cikkben bemutattuk az alapértelmezett értékkel rendelkező új oszlop hozzáadásának alapvető módszerét, és részletes magyarázatot adtunk az ehhez szükséges lépésekhez. Bemutattuk a Pandákat is, mint egy hatékony adatkezelési könyvtárat, és megvitattunk néhány kapcsolódó funkciót a DataFrame oszlopok kezeléséhez. Ezen technikák elsajátításával jól felkészült lesz a Pythonban végzett adatfeldolgozási feladatok széles körének kezelésére.

Kapcsolódó hozzászólások:

Írj hozzászólást