Atrisināts: filtrējiet visas pandas kolonnas

Datu analīzes pasaulē lielu datu kopu apstrāde var būt biedējošs uzdevums. Viena no būtiskām šī procesa daļām ir datu filtrēšana, lai iegūtu attiecīgo informāciju. Runājot par Python, jaudīgo bibliotēku pandas nāk mums palīgā. Šajā rakstā mēs apspriedīsim kā filtrēt visas kolonnas pandas DataFrame. Mēs soli pa solim aprakstīsim kodu un sniegsim dziļu izpratni par bibliotēkām un funkcijām, kuras var izmantot līdzīgām problēmām.

Iepazīstinām ar pandām

ir atvērtā koda bibliotēka, kas nodrošina viegli lietojamas datu struktūras un datu analīzes rīkus Python programmēšanas valodai. Tam ir nozīmīga loma datu zinātnes ekosistēmā, un tā ir kļuvusi par obligātu rīku ikvienam datu zinātniekam vai analītiķim, kas strādā ar Python. Pandas piedāvā divas primārās datu struktūras: DataFrame un Sērija. DataFrame ir divdimensiju tabula ar marķētām asīm (rindām un kolonnām), savukārt sērija ir viendimensijas marķēts masīvs.

Šajā rakstā mēs pievērsīsimies konkrētu vērtību filtrēšanai, kas atrodas jebkurā pandas DataFrame kolonnā. Lai to izdarītu, mēs izmantosim pandas .ir iekšā() funkcija kopā ar Būla maskēšanu.

DataFrame filtrēšana

Lai filtrētu DataFrame pandās, veiciet šīs darbības:

1. Importējiet pandu bibliotēku
2. Izveidojiet DataFrame vai ielādējiet to no faila
3. Definējiet vērtības, kuras vēlaties filtrēt
4. Lietojiet filtru, izmantojot funkciju ".isin()" un Būla maskēšanu
5. Parādiet filtrēto DataFrame

Iedziļināsimies kodā, lai saprastu, kā tas darbojas.

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

Šajā piemērā mēs vispirms importējam pandas bibliotēku un izveidojam DataFrame ar trim kolonnām. Mēs definējam vērtības, kuras vēlamies filtrēt (1, 3, 5 un “A”), un lietojam filtru, izmantojot funkciju “.isin()” kopā ar Būla maskēšanu. Funkcija “any(axis=1)” pārbauda, ​​vai kāda rindas vērtība atbilst filtrēšanas kritērijiem. Visbeidzot, mēs izdrukājam filtrēto DataFrame.

Funkcija .isin() un Būla maskēšana

Jūsu darbs IR Klientu apkalpošana .ir iekšā() funkcija pandas ir daudzpusīgs rīks datu filtrēšanai, pamatojoties uz sarakstu vai vērtību kopu. Tas atgriež Būla datu rāmi, kura forma ir tāda pati kā sākotnējam, norādot, kuri elementi atrodas sniegtajā sarakstā vai kopā. Mūsu gadījumā mēs nododam vērtību sarakstu, kuras vēlamies filtrēt.

Būla maskēšana ir paņēmiens, ko pandās izmanto datu filtrēšanai pa elementiem. Tas sastāv no Būla maskas (patieso un nepatieso vērtību masīva) pielietošanas datu struktūrai, lai filtrētu tās elementus. Mūsu problēmas kontekstā mēs izmantojam Būla maskēšanu kopā ar funkciju .isin(), lai izgūtu rindas, kurās ir vēlamās vērtības.

Ar skaidru izpratni par pandu bibliotēku, DataFrame struktūrām un funkciju .isin() mēs varam efektīvi filtrēt jebkuru pandu DataFrame. Šīs metodes ļauj mums viegli izpētīt lielas datu kopas un iegūt vērtīgus ieskatus, padarot pandas par Python datu analīzes bibliotēku.

Related posts:

Leave a Comment