Pandas to biblioteka języka Python typu open source, która zapewnia wydajne, łatwe w użyciu struktury danych i narzędzia do analizy danych. Stało się podstawowym wyborem dla programistów i analityków danych, jeśli chodzi o manipulację i analizę danych. Jedną z potężnych funkcji zapewnianych przez Pandas jest tworzenie i modyfikowanie ramek danych. W tym artykule przyjrzymy się procesowi dodawania wielu kolumn do ramki danych, jeśli nie istnieją, przy użyciu biblioteki pandas. Wyjaśnimy krok po kroku kod i zagłębimy się w powiązane funkcje, biblioteki i problemy, które możesz napotkać po drodze.
Praca z ramkami danych ma kluczowe znaczenie podczas obsługi danych i często możesz znaleźć się w sytuacji, w której musisz dodać wiele kolumn jednocześnie do ramki danych. Może to być trudne, ale biblioteka Pandas sprawia, że zadanie to jest płynne i wydajne. Najpierw zacznijmy od zaimportowania biblioteki Pandas:
import pandas as pd
Dodawanie wielu kolumn do ramki danych Pandas
Aby dodać wiele kolumn do ramki danych, możemy użyć metody DataFrame.assign() . Ta metoda pozwala nam dodać jedną lub kilka kolumn do ramki danych jednocześnie. Utwórzmy przykładową ramkę danych, a następnie dodajmy do niej wiele kolumn, jeśli jeszcze nie istnieją:
# Create a sample dataframe data = {'column1': [1, 2, 3], 'column2': [4, 5, 6]} df = pd.DataFrame(data) # Add multiple columns if they do not exist new_columns = ['column3', 'column4'] for new_col in new_columns: if new_col not in df.columns: df[new_col] = None
W fragment kodu powyżej, najpierw tworzymy przykładową ramkę danych z dwiema kolumnami „kolumna1” i „kolumna2”. Następnie tworzymy listę nowych kolumn „kolumna3” i „kolumna4”, które chcemy dodać do ramki danych. Na koniec przeglądamy listę kolumn i dodajemy nową kolumnę, jeśli jeszcze nie istnieje w ramce danych.
Wyjaśnienie krok po kroku
Oto krok po kroku wyjaśnienie każdej części naszego rozwiązania:
1. Zaczynamy od zaimportowania biblioteki Pandas za pomocą „import pandas as pd”.
2. Następnie tworzymy przykładową ramkę danych o nazwie „df” z dwiema kolumnami: „kolumna1” i „kolumna2”.
3. Tworzymy listę nowych kolumn, które chcemy dodać do dataframe – 'column3' i 'column4'.
4. Używamy pętli for do iteracji po liście nowych kolumn.
5. W ramach pętli sprawdzamy, czy nowa kolumna już istnieje w ramce danych, używając warunku „not in”. Jeśli nowa kolumna nie istnieje, dodajemy nową kolumnę do ramki danych z domyślną wartością Brak.
Funkcje i biblioteki pand
Pandas oferuje szeroki zakres funkcji i metod, które upraszczają obsługę i manipulowanie ramkami danych. W naszym rozwiązaniu wykorzystaliśmy następujące kluczowe komponenty:
- Ramka danych – Jako podstawowa struktura danych w pandach, DataFrame to dwuwymiarowe, zmienne, potencjalnie heterogeniczne dane tabelaryczne z oznakowanymi osiami (wiersze i kolumny)
- DataFrame.kolumny – Ten atrybut zwraca etykiety kolumn DataFrame, umożliwiając nam dostęp i sprawdzenie, czy kolumna istnieje, czy nie.
- pd.DataFrame() – Jest to funkcja konstruktora, która tworzy nową ramkę danych. Pozwala zdefiniować dane i nazwy kolumn podczas tworzenia.
Teraz, gdy już lepiej wiesz, jak to zrobić dodać wiele kolumn do ramki danych Pandas, ta technika pomoże Ci wydajnie zarządzać danymi i manipulować nimi. Pamiętaj, że Pandas oferuje wiele innych zaawansowanych funkcji do analizy i manipulacji danymi, więc zapoznaj się z nimi, aby stać się bardziej skutecznym programistą Pythona.