Datu analīzes pasaulē izklājlapu izmantošana ir izplatīta, īpaši, strādājot ar strukturētiem datiem kolonnu formātā. Viena no populārākajām bibliotēkām darbam ar izklājlapu datiem programmā Python ir Pandas. Šī jaudīgā bibliotēka ļauj izstrādātājiem viegli lasīt, apstrādāt un eksportēt tabulas datus. Šajā rakstā mēs pievērsīsimies konkrētai problēmai: lapas šūnu atjaunināšana pēc kolonnas nosaukuma, izmantojot Pandas. Mēs iedziļināsimies risinājumā, kam sekos soli pa solim koda skaidrojums, un visbeidzot apspriedīsim saistītos jēdzienus un funkcionalitāti programmā Pandas, piemēram, darbu ar indeksiem un datu atlasi. Tātad, sāksim.
Šūnu atjaunināšana pēc kolonnas nosaukuma, izmantojot Pandas
Lai atjauninātu lapas šūnas pēc kolonnas nosaukuma, mums vispirms ir jāinstalē Pandas bibliotēka, ja tā vēl nav instalēta, izmantojot šādu komandu:
!pip install pandas
Kad Pandas ir instalētas, aprakstīsim darbības, lai atjauninātu lapas pēc kolonnas nosaukuma:
1. Ievietojiet lapu DataFrame objektā.
2. Piekļūstiet šūnām, kuras vēlamies atjaunināt.
3. Pārveidojiet vēlamās šūnas, piešķirot jaunas vērtības.
4. Saglabājiet DataFrame objektu atpakaļ lapā.
Šeit ir koda fragments, kas parāda risinājumu ar vienkāršu piemēru:
import pandas as pd # Load data from a CSV file into a DataFrame object df = pd.read_csv('your_spreadsheet.csv') # Access and update the desired cells - let's update column 'Age' by adding 1 to each value df['Age'] = df['Age'] + 1 # Save the updated DataFrame back to the CSV file df.to_csv('your_updated_spreadsheet.csv', index=False)
Kodeksa izpratne
Pirmais solis ir importēt Pandas bibliotēku ar aizstājvārdu "pd". Pēc tam mums ir jāielādē dati no CSV faila DataFrame objektā, izmantojot funkciju `pd.read_csv()', norādot ievades faila nosaukumu ('your_spreadsheet.csv').
Tagad nāk galvenā problēmas daļa: piekļuve vēlamajām šūnām un to atjaunināšana. Šajā piemērā mēs vēlamies atjaunināt sleju Vecums, katrai kolonnas vērtībai pievienojot 1. Mēs to darām, vienkārši pievienojot 1 kolonnai "Vecums", kurai var piekļūt, izmantojot sintaksi "df["Vecums"]. Šis kods katram elementam slejā Vecums tiks pievienots 1 elementā.
Visbeidzot, mēs saglabājam atjaunināto DataFrame atpakaļ CSV failā, izmantojot funkciju "df.to_csv()" ar izvades faila nosaukumu ("your_updated_spreadsheet.csv"). Parametrs "index=False" tiek izmantots, lai izvairītos no rindu numuru rakstīšanas izvades failā.
Pandas indeksi un datu atlase
Pandas lielā mērā paļaujas uz indeksu koncepciju, lai atlasītu un apstrādātu datus. Pēc noklusējuma, ielādējot datus no faila, Pandas piešķir a skaitliskais indekss katrai DataFrame rindai, sākot no 0. Strādājot ar datiem programmā Pandas, ir svarīgi saprast dažādos veidus, kā datu atlase un filtrēšana pamatojoties uz indeksa vērtībām vai kolonnu nosaukumiem.
Piemēram, lai atlasītu noteiktu rindu vai rindas, varat izmantot indeksētāju “iloc”, kas ļauj piekļūt rindām, pamatojoties uz to veselo skaitļu indeksu:
# Select the first row of the DataFrame first_row = df.iloc[0] # Select rows 1 to 3 (excluding 3) rows_1_to_2 = df.iloc[1:3]
Ja nepieciešams atjaunināt šūnas, pamatojoties uz konkrētu nosacījumu, piemēram, atjauninot sleju Vecums tikai tām rindām, kurās citai kolonnai (piemēram, "Pilsēta") ir noteikta vērtība, varat izmantot Būla indeksēšanu:
# Update the 'Age' column by adding 1, only for rows where 'City' is equal to 'New York' df.loc[df['City'] == 'New York', 'Age'] = df['Age'] + 1
Šajā piemērā indeksētājs “loc” tiek izmantots, lai atlasītu rindas, pamatojoties uz Būla nosacījumu, un pēc tam tiek atjaunināta sleja “Vecums”.
Ņemiet vērā, ka šī ir tikai aisberga redzamā daļa, kad runa ir par darbu ar datiem Pandas. Bibliotēka nodrošina daudz funkciju un paņēmienu, lai efektīvi manipulētu, analizētu un vizualizētu jūsu datus. Izpratne par pamatiem, piemēram, šūnu atjaunināšana lapā pēc kolonnas nosaukuma, veido spēcīgu pamatu darbam ar sarežģītākām datu struktūrām un analīzes uzdevumiem nākotnē.