Vyriešené: aktualizujte bunku v hárku podľa názvu stĺpca pomocou pandy

Vo svete analýzy údajov je používanie tabuliek bežné, najmä pri práci so štruktúrovanými údajmi v stĺpcovom formáte. Jednou z populárnych knižníc na prácu s tabuľkovými údajmi v Pythone je Pandas. Táto výkonná knižnica umožňuje vývojárom jednoducho čítať, manipulovať a exportovať tabuľkové údaje. V tomto článku sa zameriame na konkrétny problém: aktualizáciu buniek v hárku podľa názvu stĺpca pomocou Pandas. Ponoríme sa do riešenia, nasleduje podrobné vysvetlenie kódu a nakoniec si rozoberieme súvisiace koncepty a funkcie v Pandas, ako je práca s indexmi a výber údajov. Takže, začnime.

Aktualizácia buniek podľa názvu stĺpca pomocou Pandy

Ak chcete aktualizovať bunky v hárku podľa názvu stĺpca, najprv musíme nainštalovať knižnicu Pandas, ak ešte nie je nainštalovaná, pomocou nasledujúceho príkazu:

!pip install pandas

Po nainštalovaní Pandas si načrtneme kroky na aktualizáciu buniek v hárku podľa názvu stĺpca:

1. Vložte hárok do objektu DataFrame.
2. Prístup k bunkám, ktoré chceme aktualizovať.
3. Upravte požadované bunky priradením nových hodnôt.
4. Uložte objekt DataFrame späť na hárok.

Tu je útržok kódu, ktorý ukazuje riešenie na jednoduchom príklade:

import pandas as pd

# Load data from a CSV file into a DataFrame object
df = pd.read_csv('your_spreadsheet.csv')

# Access and update the desired cells - let's update column 'Age' by adding 1 to each value
df['Age'] = df['Age'] + 1

# Save the updated DataFrame back to the CSV file
df.to_csv('your_updated_spreadsheet.csv', index=False)

Pochopenie Kódexu

Prvým krokom je import knižnice Pandas pod aliasom `pd`. Ďalej musíme načítať údaje zo súboru CSV do objektu DataFrame pomocou funkcie `pd.read_csv()`, pričom špecifikujeme názov vstupného súboru ('your_spreadsheet.csv').

Teraz prichádza hlavná časť problému: prístup k požadovaným bunkám a ich aktualizácia. V tomto príklade chceme aktualizovať stĺpec „Vek“ pridaním 1 ku každej hodnote v stĺpci. Urobíme to jednoduchým pridaním 1 do stĺpca 'Vek', ku ktorému sa pristupuje pomocou syntaxe `df['Vek']`. Tento kód vykoná po jednotlivých prvkoch pridanie 1 ku každej položke v stĺpci 'Vek'.

Nakoniec aktualizovaný DataFrame uložíme späť do súboru CSV pomocou funkcie `df.to_csv()` s názvom výstupného súboru ('your_updated_spreadsheet.csv'). Parameter `index=False` sa používa na zabránenie zápisu čísel riadkov do výstupného súboru.

Indexy Pandas a výber údajov

Pandas sa pri výbere a manipulácii s údajmi vo veľkej miere spolieha na koncept indexov. Štandardne pri načítavaní údajov zo súboru Pandas priradí a číselný index do každého riadku DataFrame, počnúc od 0. Pri práci s údajmi v Pandas je dôležité pochopiť rôzne spôsoby výber a filtrovanie údajov na základe hodnôt indexu alebo názvov stĺpcov.

Ak chcete napríklad vybrať konkrétny riadok alebo riadky, môžete použiť indexer `iloc`, ktorý vám umožňuje pristupovať k riadkom na základe ich celočíselného indexu:

# Select the first row of the DataFrame
first_row = df.iloc[0]

# Select rows 1 to 3 (excluding 3)
rows_1_to_2 = df.iloc[1:3]

Keď potrebujete aktualizovať bunky na základe konkrétnej podmienky, ako je aktualizácia stĺpca „Vek“ len pre tie riadky, kde má iný stĺpec (napr. „Mesto“) určitú hodnotu, môžete použiť boolovské indexovanie:

# Update the 'Age' column by adding 1, only for rows where 'City' is equal to 'New York'
df.loc[df['City'] == 'New York', 'Age'] = df['Age'] + 1

V tomto príklade sa indexer `loc` používa na výber riadkov na základe boolovskej podmienky a potom sa aktualizuje stĺpec 'Vek'.

Majte na pamäti, že toto je len špička ľadovca, pokiaľ ide o prácu s údajmi v Pandách. Knižnica poskytuje množstvo funkcií a techník na efektívnu manipuláciu, analýzu a vizualizáciu vašich údajov. Pochopenie základov, ako je aktualizácia buniek v hárku podľa názvu stĺpca, vytvára pevný základ pre prácu so zložitejšími dátovými štruktúrami a úlohami analýzy v budúcnosti.

Súvisiace príspevky:

Pridať komentár