Lahendatud: filtreerige pandades kõik veerud

Andmeanalüüsi maailmas võib suurte andmekogumite käsitlemine olla hirmutav ülesanne. Selle protsessi üks olulisi osi on andmete filtreerimine asjakohase teabe saamiseks. Kui tegemist on Pythoniga, võimsa raamatukoguga pandas tuleb meile appi. Selles artiklis arutame kuidas filtreerida panda DataFrame'i kõiki veerge. Me käsitleme koodi samm-sammult ja anname sügava ülevaate teekide ja funktsioonide kohta, mida saab sarnaste probleemide korral kasutada.

Tutvustame pandasid

on avatud lähtekoodiga teek, mis pakub Pythoni programmeerimiskeele jaoks hõlpsasti kasutatavaid andmestruktuure ja andmeanalüüsi tööriistu. See mängib andmeteaduse ökosüsteemis olulist rolli ja sellest on saanud Pythoniga töötava andmeteadlase või analüütiku kohustuslik tööriist. Oma funktsioonide hulgas pakuvad pandad kahte peamist andmestruktuuri: DataFrame ja Seeria. DataFrame on kahemõõtmeline tabel, millel on märgistatud teljed (read ja veerud), samas kui seeria on ühemõõtmeline märgistatud massiiv.

Selle artikli puhul keskendume panda DataFrame'i mis tahes veerus sisalduvate konkreetsete väärtuste filtreerimisele. Selleks kasutame pandasid .isin() funktsioon koos tõeväärtusliku maskeerimisega.

DataFrame'i filtreerimine

DataFrame'i filtreerimiseks pandades toimige järgmiselt.

1. Importige pandade teek
2. Looge DataFrame või laadige see failist
3. Määratlege väärtused, mida soovite filtreerida
4. Rakendage filter, kasutades funktsiooni ".isin()" ja tõeväärtuslikku maskeerimist
5. Kuvage filtreeritud DataFrame

Sukeldume koodi, et mõista, kuidas see töötab.

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

Selles näites impordime esmalt pandade teegi ja loome kolme veeruga DataFrame'i. Määratleme väärtused, mida tahame filtreerida (1, 3, 5 ja 'A') ja rakendame filtrit funktsiooni .isin() abil koos tõeväärtusliku maskeerimisega. Funktsioon „any(axis=1)” kontrollib, kas rea mis tahes väärtus vastab filtreerimiskriteeriumidele. Lõpuks prindime filtreeritud DataFrame'i.

Funktsioon .isin() ja tõeväärtusmask

. .isin() Funktsioon pandas on mitmekülgne tööriist andmete filtreerimiseks loendi või väärtuste komplekti alusel. See tagastab algse kujuga tõeväärtusliku andmeraami, mis näitab, millised elemendid on esitatud loendis või komplektis. Meie puhul edastame väärtuste loendi, mida tahame filtreerida.

Boole'i ​​maskeerimine on pandades kasutatav meetod andmete elemendipõhiseks filtreerimiseks. See seisneb tõeväärtusmaski (tõene ja vale väärtuste massiiv) rakendamises andmestruktuurile selle elementide filtreerimiseks. Meie probleemi kontekstis kasutame soovitud väärtusi sisaldavate ridade hankimiseks tõeväärtuslikku maskeerimist koos funktsiooniga .isin().

Pandade teegi, DataFrame'i struktuuride ja funktsiooni .isin() selge arusaamaga saame tõhusalt filtreerida mis tahes panda DataFrame'i. Need tehnikad võimaldavad meil hõlpsalt uurida suuri andmekogumeid ja hankida väärtuslikke teadmisi, muutes pandad Pythonis andmeanalüüsi jaoks populaarseks raamatukoguks.

Seonduvad postitused:

Jäta kommentaar