Λύθηκε: λήψη του αριθμού των τιμών που λείπουν στα πάντα

Το Pandas είναι μια ευρέως χρησιμοποιούμενη βιβλιοθήκη χειρισμού δεδομένων ανοιχτού κώδικα για την Python. Παρέχει δομές δεδομένων και λειτουργίες που απαιτούνται για τον αποτελεσματικό χειρισμό και την ανάλυση μεγάλων συνόλων δεδομένων. Ένα κοινό πρόβλημα που αντιμετωπίζουν οι επιστήμονες και οι αναλυτές δεδομένων όταν χρησιμοποιούν panda είναι ο χειρισμός των τιμών που λείπουν στο σύνολο δεδομένων. Σε αυτό το άρθρο, θα διερευνήσουμε τον τρόπο μέτρησης του αριθμού των τιμών που λείπουν σε ένα Pandas DataFrame χρησιμοποιώντας διάφορες τεχνικές, βήμα προς βήμα εξηγήσεις του κώδικα και θα εμβαθύνουμε σε ορισμένες από τις βιβλιοθήκες και τις λειτουργίες που εμπλέκονται στην επίλυση αυτού του προβλήματος.

Μετρώντας τις αξίες που λείπουν στα πάντα

Για να ξεκινήσουμε, πρέπει πρώτα να εισαγάγουμε τη βιβλιοθήκη pandas. Εάν δεν το έχετε εγκαταστήσει ακόμα, απλώς εκτελέστε την εντολή «pip install pandas» στο τερματικό σας ή στη γραμμή εντολών.

import pandas as pd

Αφού εισαγάγουμε τη βιβλιοθήκη pandas, ας δημιουργήσουμε ένα δείγμα DataFrame με τιμές που λείπουν, το οποίο θα χρησιμοποιήσουμε σε όλο αυτό το άρθρο για να δείξουμε διαφορετικές τεχνικές μέτρησης τιμών που λείπουν.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Σε αυτό το παράδειγμα, έχουμε ένα DataFrame με τρεις στήλες: Όνομα, Ηλικία και Πόλη. Υπάρχουν κάποιες τιμές που λείπουν, τις οποίες θα βρούμε και θα μετρήσουμε στην επόμενη ενότητα.

Εύρεση και καταμέτρηση τιμών που λείπουν χρησιμοποιώντας isnull() και sum()

Η πρώτη μέθοδος μέτρησης των τιμών που λείπουν σε ένα Pandas DataFrame είναι χρησιμοποιώντας το isnull() λειτουργία. Αυτή η συνάρτηση επιστρέφει ένα DataFrame του ίδιου σχήματος με το πρωτότυπο, αλλά με τιμές True ή False που υποδεικνύουν εάν η αντίστοιχη καταχώρηση λείπει (δηλ. περιέχει None ή NaN) ή όχι.

missing_values = df.isnull()

Τώρα έχουμε ένα DataFrame του ίδιου σχήματος, με τις τιμές True να υποδεικνύουν καταχωρήσεις που λείπουν. Για να μετρήσουμε αυτές τις τιμές που λείπουν, μπορούμε απλά να χρησιμοποιήσουμε το άθροισμα() λειτουργία. Χρησιμοποιώντας το πάνω από το DataFrame, μπορούμε να πάρουμε τον αριθμό των τιμών που λείπουν για κάθε στήλη.

count_missing_values = df.isnull().sum()

Αυτό θα μας δώσει μια σειρά pandas με τον αριθμό των τιμών που λείπουν για κάθε στήλη στο DataFrame μας.

Εναλλακτική προσέγγιση: Χρησιμοποιώντας isna() και sum()

Μια άλλη προσέγγιση για την καταμέτρηση των τιμών που λείπουν σε ένα pandas DataFrame είναι η χρήση του isna() λειτουργία. Είναι ένα ψευδώνυμο για την isnull() και λειτουργεί με τον ίδιο τρόπο.

count_missing_values = df.isna().sum()

Αυτό θα δώσει το ίδιο αποτέλεσμα με την προηγούμενη προσέγγιση, μετρώντας τον αριθμό των τιμών που λείπουν για κάθε στήλη στο DataFrame μας.

Καταμέτρηση τιμών που λείπουν σε ολόκληρο το πλαίσιο δεδομένων

Αν θέλουμε να βρούμε τον συνολικό αριθμό των τιμών που λείπουν σε ολόκληρο το DataFrame, μπορούμε απλά να αλυσοδέψουμε μια άλλη άθροισμα() συνάρτηση μετά την πρώτη συνάρτηση sum().

total_missing_values = df.isnull().sum().sum()

Αυτό θα επιστρέψει τον συνολικό αριθμό των τιμών που λείπουν σε ολόκληρο το DataFrame.

Συνοπτικά, ο χειρισμός των τιμών που λείπουν στα πάντα είναι ένα κρίσιμο βήμα στη φάση καθαρισμού και προεπεξεργασίας δεδομένων. Χρησιμοποιώντας τις συναρτήσεις isnull() ή isna(), σε συνδυασμό με τη συνάρτηση sum(), μπορούμε να μετρήσουμε αποτελεσματικά τον αριθμό των τιμών που λείπουν στο DataFrame μας, διευκολύνοντας την αντιμετώπιση και διαχείριση ζητημάτων δεδομένων που λείπουν στην ανάλυσή μας.

Σχετικές αναρτήσεις:

Αφήστε ένα σχόλιο