Gelöst: Neue Spalte zum Pandas-Datenrahmen hinzufügen

In diesem Artikel untersuchen wir den Prozess des Hinzufügens einer neuen Spalte zu einem Pandas DataFrame, einer beliebten Bibliothek in Python zur Datenmanipulation und -analyse. Wir werden die Lösung für dieses Problem diskutieren, den Code Schritt für Schritt erklären und einige verwandte Themen und Funktionen in der Pandas-Bibliothek behandeln. Pandas ist eine weit verbreitete Bibliothek mit hochrangigen Datenstrukturen und Tools, die sich perfekt für eine effiziente Datenanalyse und Handhabung von Aufgaben eignen.

Nehmen wir zunächst an, wir haben einen Datensatz in Form eines Pandas DataFrame und möchten ihm eine neue Spalte hinzufügen. Dies ist eine häufige Anforderung in der Datenvorbereitungsphase, die häufig für das Feature-Engineering oder zum Generieren zusätzlicher Informationen auf der Grundlage vorhandener Spalten benötigt wird. Lassen Sie uns untersuchen, wie dies erreicht werden kann.

Hinzufügen einer neuen Spalte zu einem Pandas DataFrame

Wir beginnen mit dem Importieren der erforderlichen Bibliothek und dem Erstellen eines Beispiel-DataFrames.

import pandas as pd

data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
        'Age': [25, 28, 23, 22],
        'City': ['NY', 'LA', 'SF', 'Chicago']}

df = pd.DataFrame(data)

Nun fügen wir unserem DataFrame eine neue Spalte „Country“ mit einem Standardwert hinzu, sagen wir „USA“.

df['Country'] = 'USA'

Diese einfache Codezeile fügt unserem vorhandenen DataFrame „df“ eine neue Spalte mit dem Namen „Country“ mit dem Wert „USA“ in allen Zeilen hinzu. Unser aktualisierter DataFrame würde wie folgt aussehen:

  Name  Age     City Country
0  Alex   25      NY     USA
1   Tom   28      LA     USA
2  Nick   23      SF     USA
3   Sam   22  Chicago     USA

Schritt-für-Schritt-Code-Erklärung

Lassen Sie uns den Code aufschlüsseln und Schritt für Schritt verstehen.

1. Zuerst importieren wir die Pandas-Bibliothek mit dem Standard-Alias ​​„pd“. Dies ermöglicht uns den Zugriff auf Pandas-Funktionen und -Klassen mit dem Präfix „pd“.

import pandas as pd

2. Als nächstes erstellen wir ein Wörterbuch „Daten“, das einige Beispieldaten enthält. Jeder Schlüssel im Wörterbuch stellt einen Spaltennamen dar, und sein entsprechender Wert ist eine Liste von Werten für diese Spalte.

data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'],
        'Age': [25, 28, 23, 22],
        'City': ['NY', 'LA', 'SF', 'Chicago']}

3. Wir konvertieren dieses Wörterbuch dann mit der Funktion „pd.DataFrame()“ in ein Pandas DataFrame-Objekt.

df = pd.DataFrame(data)

4. Um schließlich eine neue Spalte hinzuzufügen, verwenden wir einfach den Zuweisungsoperator „=“ mit dem DataFrame, geben den neuen Spaltennamen in eckige Klammern und geben den Standardwert an. In unserem Fall haben wir die Spalte „Land“ mit dem Standardwert „USA“ hinzugefügt.

df['Country'] = 'USA'

Pandas-Bibliothek und zugehörige Funktionen

Pandas ist eine leistungsstarke Python-Bibliothek, die sich besonders für Datenverarbeitungs-, Bereinigungs- und Analyseaufgaben eignet. Es bietet zwei Hauptdatenstrukturen: Datenrahmen und Modellreihe. Ein DataFrame ist eine zweidimensionale tabellarische Datenstruktur mit beschrifteten Achsen (Zeilen und Spalten). Eine Serie hingegen ist ein eindimensionales beschriftetes Array, das Daten jeden Typs enthalten kann.

Einige gängige Pandas-Funktionen im Zusammenhang mit dem Hinzufügen, Ändern und Löschen von Spalten in einem DataFrame sind wie folgt:

  • Einfügung(): Um eine Spalte an einer bestimmten Position einzufügen.
  • tropfen(): So entfernen Sie eine Spalte aus dem DataFrame.
  • umbenennen(): So benennen Sie die Spalte eines DataFrame um.
  • zuordnen(): Um eine neue Spalte basierend auf dem Ergebnis eines Ausdrucks zu erstellen.

Das Hinzufügen einer neuen Spalte zu einem Pandas DataFrame ist also einfach und effizient. In diesem Artikel haben wir die grundlegende Methode zum Hinzufügen einer neuen Spalte mit einem Standardwert behandelt und detaillierte Erklärungen für die erforderlichen Schritte bereitgestellt. Wir haben auch Pandas als leistungsstarke Datenmanipulationsbibliothek vorgestellt und einige verwandte Funktionen zum Verwalten von DataFrame-Spalten besprochen. Durch die Beherrschung dieser Techniken sind Sie gut gerüstet, um eine Vielzahl von Datenverarbeitungsaufgaben in Python zu bewältigen.

Zusammenhängende Posts:

Hinterlasse einen Kommentar