Išspręsta: filtruokite visus pandų stulpelius

Duomenų analizės pasaulyje didelių duomenų rinkinių tvarkymas gali būti nelengva užduotis. Viena iš esminių šio proceso dalių yra duomenų filtravimas, norint gauti reikiamą informaciją. Kalbant apie Python, galingą biblioteką panda ateina mums į pagalbą. Šiame straipsnyje aptarsime kaip filtruoti visus stulpelius pandos DataFrame. Išnagrinėsime nuoseklų kodo paaiškinimą ir pateiksime gilų supratimą apie bibliotekas ir funkcijas, kurios gali būti naudojamos panašioms problemoms spręsti.

Pristatome pandas

yra atvirojo kodo biblioteka, teikianti lengvai naudojamas duomenų struktūras ir duomenų analizės įrankius, skirtas Python programavimo kalbai. Jis vaidina svarbų vaidmenį duomenų mokslo ekosistemoje ir tapo privalomu įrankiu kiekvienam duomenų mokslininkui ar analitikui, dirbančiam su Python. Tarp savo savybių pandos siūlo dvi pirmines duomenų struktūras: DataFrame ir serija. „DataFrame“ yra dvimatė lentelė su pažymėtomis ašimis (eilelėmis ir stulpeliais), o serija yra vienmatis masyvas.

Šiame straipsnyje mes sutelksime dėmesį į konkrečių verčių, esančių bet kuriame pandos duomenų rėmelio stulpelyje, filtravimą. Norėdami tai padaryti, naudosime pandas .yra() funkcija kartu su loginiu maskavimu.

„DataFrame“ filtravimas

Norėdami filtruoti „DataFrame“ pandose, atlikite šiuos veiksmus:

1. Importuokite pandų biblioteką
2. Sukurkite duomenų rėmelį arba įkelkite jį iš failo
3. Apibrėžkite reikšmes, kurias norite filtruoti
4. Taikykite filtrą naudodami funkciją „.isin()“ ir loginį maskavimą
5. Rodyti filtruotą DataFrame

Pasinerkime į kodą, kad suprastume, kaip jis veikia.

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

Šiame pavyzdyje pirmiausia importuojame pandų biblioteką ir sukuriame duomenų rėmelį su trimis stulpeliais. Apibrėžiame norimas filtruoti reikšmes (1, 3, 5 ir „A“) ir pritaikome filtrą naudodami funkciją „.isin()“ kartu su loginiu maskavimu. Funkcija „any(axis=1)“ patikrina, ar kuri nors eilutės reikšmė atitinka filtravimo kriterijus. Galiausiai atspausdiname filtruotą DataFrame.

Funkcija .isin() ir loginis maskavimas

Šios .yra() funkcija pandose yra universalus įrankis duomenims filtruoti pagal sąrašą arba reikšmių rinkinį. Jis grąžina loginį duomenų rėmelį, kurio forma yra tokia pati kaip ir pradinis, nurodant, kurie elementai yra pateiktame sąraše arba rinkinyje. Mūsų atveju perduodame verčių, kurias norime filtruoti, sąrašą.

Būlio maskavimas yra metodas, naudojamas pandose duomenims filtruoti pagal elementą. Jį sudaro loginės kaukės (tiesos ir klaidingos reikšmių masyvas) taikymas duomenų struktūrai, kad būtų galima filtruoti jos elementus. Mūsų problemos kontekste mes naudojame loginį maskavimą kartu su funkcija .isin(), kad gautume eilutes su norimomis reikšmėmis.

Aiškiai suprasdami pandų biblioteką, DataFrame struktūras ir funkciją .isin() galime efektyviai filtruoti bet kurią pandų duomenų rėmelį. Šie metodai leidžia mums tyrinėti didelius duomenų rinkinius ir lengvai gauti vertingų įžvalgų, todėl pandos yra pagrindinė duomenų analizės Python biblioteka.

Susijusios naujienos:

Palikite komentarą