Επιλύθηκε: ενημέρωση κελιού σε φύλλο ανά όνομα στήλης χρησιμοποιώντας panda

Στον κόσμο της ανάλυσης δεδομένων, η χρήση υπολογιστικών φύλλων είναι συνηθισμένη, ειδικά όταν εργάζεστε με δομημένα δεδομένα σε μορφή στήλης. Μία από τις δημοφιλείς βιβλιοθήκες για εργασία με δεδομένα υπολογιστικών φύλλων στην Python είναι οι Pandas. Αυτή η ισχυρή βιβλιοθήκη επιτρέπει στους προγραμματιστές να διαβάζουν, να χειρίζονται και να εξάγουν δεδομένα σε πίνακα με ευκολία. Σε αυτό το άρθρο, θα εστιάσουμε σε ένα συγκεκριμένο πρόβλημα: την ενημέρωση των κελιών σε ένα φύλλο ανά όνομα στήλης χρησιμοποιώντας Pandas. Θα βουτήξουμε στη λύση, ακολουθούμενη από μια εξήγηση βήμα προς βήμα του κώδικα και, τέλος, θα συζητήσουμε σχετικές έννοιες και λειτουργίες στα Panda, όπως η εργασία με ευρετήρια και η επιλογή δεδομένων. Λοιπόν, ας ξεκινήσουμε.

Ενημέρωση κελιών κατά όνομα στήλης με χρήση Pandas

Για να ενημερώσετε τα κελιά σε ένα φύλλο με βάση το όνομα στήλης, πρέπει πρώτα να εγκαταστήσουμε τη βιβλιοθήκη Pandas εάν δεν είναι ήδη εγκατεστημένη χρησιμοποιώντας την ακόλουθη εντολή:

!pip install pandas

Με τα Pandas εγκατεστημένα, ας περιγράψουμε τα βήματα για την ενημέρωση των κελιών σε ένα φύλλο ανά όνομα στήλης:

1. Τοποθετήστε το φύλλο σε ένα αντικείμενο DataFrame.
2. Πρόσβαση στα κελιά που θέλουμε να ενημερώσουμε.
3. Τροποποιήστε τα επιθυμητά κελιά εκχωρώντας νέες τιμές.
4. Αποθηκεύστε το αντικείμενο DataFrame πίσω στο φύλλο.

Ακολουθεί ένα απόσπασμα κώδικα που δείχνει τη λύση με ένα απλό παράδειγμα:

import pandas as pd

# Load data from a CSV file into a DataFrame object
df = pd.read_csv('your_spreadsheet.csv')

# Access and update the desired cells - let's update column 'Age' by adding 1 to each value
df['Age'] = df['Age'] + 1

# Save the updated DataFrame back to the CSV file
df.to_csv('your_updated_spreadsheet.csv', index=False)

Κατανόηση του κώδικα

Το πρώτο βήμα είναι να εισαγάγετε τη βιβλιοθήκη Pandas με το ψευδώνυμο «pd». Στη συνέχεια, πρέπει να φορτώσουμε τα δεδομένα από ένα αρχείο CSV σε ένα αντικείμενο DataFrame χρησιμοποιώντας τη συνάρτηση `pd.read_csv()`, προσδιορίζοντας το όνομα του αρχείου εισόδου ('your_spreadsheet.csv').

Τώρα έρχεται το κύριο μέρος του προβλήματος: η πρόσβαση και η ενημέρωση των επιθυμητών κελιών. Σε αυτό το παράδειγμα, θέλουμε να ενημερώσουμε τη στήλη 'Ηλικία' προσθέτοντας 1 σε κάθε τιμή στη στήλη. Αυτό το κάνουμε προσθέτοντας απλώς 1 στη στήλη 'Ηλικία', η πρόσβαση στην οποία γίνεται χρησιμοποιώντας τη σύνταξη 'df['Age']". Αυτός ο κωδικός θα εκτελέσει προσθήκη 1 βάσει στοιχείων σε κάθε στοιχείο στη στήλη "Ηλικία".

Τέλος, αποθηκεύουμε το ενημερωμένο DataFrame πίσω στο αρχείο CSV χρησιμοποιώντας τη συνάρτηση `df.to_csv()` με το όνομα αρχείου εξόδου ('your_updated_spreadsheet.csv'). Η παράμετρος «index=False» χρησιμοποιείται για να αποφευχθεί η εγγραφή αριθμών σειρών στο αρχείο εξόδου.

Ευρετήρια Pandas και Επιλογή Δεδομένων

Το Pandas βασίζεται σε μεγάλο βαθμό στην έννοια των ευρετηρίων για την επιλογή και τον χειρισμό δεδομένων. Από προεπιλογή, κατά τη φόρτωση δεδομένων από ένα αρχείο, το Pandas εκχωρεί ένα αριθμητικό ευρετήριο σε κάθε σειρά του DataFrame, ξεκινώντας από το 0. Όταν εργάζεστε με δεδομένα στα Panda, είναι σημαντικό να κατανοείτε τους διαφορετικούς τρόπους επιλογή και φιλτράρισμα δεδομένων βάσει τιμών ευρετηρίου ή ονομάτων στηλών.

Για παράδειγμα, για να επιλέξετε μια συγκεκριμένη σειρά ή σειρές, μπορείτε να χρησιμοποιήσετε τον δείκτη «iloc», ο οποίος σας επιτρέπει να έχετε πρόσβαση σε σειρές με βάση τον ακέραιο ευρετήριο τους:

# Select the first row of the DataFrame
first_row = df.iloc[0]

# Select rows 1 to 3 (excluding 3)
rows_1_to_2 = df.iloc[1:3]

Όταν χρειάζεται να ενημερώσετε τα κελιά με βάση μια συγκεκριμένη συνθήκη, όπως η ενημέρωση της στήλης "Ηλικία" μόνο για εκείνες τις σειρές όπου μια άλλη στήλη (π.χ. "Πόλη") έχει μια συγκεκριμένη τιμή, μπορείτε να χρησιμοποιήσετε τη δυαδική ευρετηρίαση:

# Update the 'Age' column by adding 1, only for rows where 'City' is equal to 'New York'
df.loc[df['City'] == 'New York', 'Age'] = df['Age'] + 1

Σε αυτό το παράδειγμα, ο δείκτης «loc» χρησιμοποιείται για την επιλογή σειρών με βάση μια δυαδική συνθήκη και, στη συνέχεια, ενημερώνεται η στήλη «Ηλικία».

Λάβετε υπόψη ότι αυτή είναι μόνο η κορυφή του παγόβουνου όσον αφορά την εργασία με δεδομένα στα Pandas. Η βιβλιοθήκη παρέχει μια πληθώρα λειτουργιών και τεχνικών για τον αποτελεσματικό χειρισμό, ανάλυση και οπτικοποίηση των δεδομένων σας. Η κατανόηση των βασικών, όπως η ενημέρωση των κελιών σε ένα φύλλο με βάση το όνομα της στήλης, θέτει μια ισχυρή βάση για την εργασία με πιο σύνθετες δομές δεδομένων και εργασίες ανάλυσης στο μέλλον.

Σχετικές αναρτήσεις:

Αφήστε ένα σχόλιο