Zgjidhur: filtro të gjitha kolonat në panda

Në botën e analizës së të dhënave, trajtimi i grupeve të mëdha të të dhënave mund të jetë një detyrë e frikshme. Një nga pjesët thelbësore të këtij procesi është filtrimi i të dhënave për të marrë informacionin përkatës. Kur bëhet fjalë për Python, bibliotekën e fuqishme pandas na vjen në ndihmë. Në këtë artikull, ne do të diskutojmë si të filtroni të gjitha kolonat në një DataFrame panda. Ne do të kalojmë një shpjegim hap pas hapi të kodit dhe do të ofrojmë një kuptim të thellë të bibliotekave dhe funksioneve që mund të përdoren për probleme të ngjashme.

Prezantimi i pandave

është një bibliotekë me burim të hapur që ofron struktura të dhënash të lehta për t'u përdorur dhe mjete të analizës së të dhënave për gjuhën e programimit Python. Ai luan një rol të rëndësishëm në ekosistemin e shkencës së të dhënave dhe është bërë një mjet i domosdoshëm për çdo shkencëtar ose analist të të dhënave që punon me Python. Ndër veçoritë e tij, pandat ofrojnë dy struktura kryesore të të dhënave: Korniza e të Dhënave Seriale. Një DataFrame është një tabelë dy-dimensionale me boshte të etiketuara (rreshta dhe kolona), ndërsa një Seri është një grup njëdimensional i etiketuar.

Për këtë artikull, ne do të fokusohemi në filtrimin e vlerave specifike të pranishme në çdo kolonë të një DataFrame panda. Për ta bërë këtë, ne do të përdorim pandat .është në() funksion së bashku me maskimin boolean.

Filtrimi i një DataFrame

Për të filtruar një DataFrame në panda, ndiqni këto hapa:

1. Importoni bibliotekën e pandave
2. Krijoni një DataFrame ose ngarkoni atë nga një skedar
3. Përcaktoni vlerat që dëshironi të filtroni
4. Aplikoni filtrin duke përdorur funksionin `.isin()` dhe maskimin boolean
5. Shfaq DataFrame e filtruar

Le të zhytemi në kod për të kuptuar se si funksionon.

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

Në këtë shembull, ne fillimisht importojmë bibliotekën e pandave dhe krijojmë një DataFrame me tre kolona. Ne përcaktojmë vlerat që duam të filtrojmë (1, 3, 5 dhe 'A') dhe aplikojmë filtrin duke përdorur funksionin `.isin()` të kombinuar me maskimin boolean. Funksioni `çdo(bosht=1)` kontrollon nëse ndonjë vlerë brenda një rreshti plotëson kriteret e filtrimit. Së fundi, ne printojmë DataFrame të filtruar.

Funksioni .isin() dhe maskimi boolean

La .është në() funksioni në panda është një mjet i gjithanshëm për filtrimin e të dhënave bazuar në një listë ose grup vlerash. Ai kthen një DataFrame boolean të së njëjtës formë si origjinali, duke treguar se cilët elementë janë të pranishëm në listën ose grupin e dhënë. Në rastin tonë, ne kalojmë një listë të vlerave që duam të filtrojmë.

Maskimi Boolean është një teknikë e përdorur në panda për filtrimin e të dhënave sipas elementeve. Ai konsiston në aplikimin e një maske boolean (një grup vlerash True dhe False) në një strukturë të dhënash për të filtruar elementët e saj. Në kontekstin e problemit tonë, ne përdorim maskimin boolean së bashku me funksionin .isin() për të tërhequr rreshtat që përmbajnë vlerat e dëshiruara.

Me një kuptim të qartë të bibliotekës së pandave, strukturave DataFrame dhe funksionit .isin(), ne mund të filtrojmë në mënyrë efektive çdo panda DataFrame. Këto teknika na lejojnë të eksplorojmë grupe të mëdha të dhënash dhe të nxjerrim njohuri të vlefshme me lehtësi, duke i bërë pandat një bibliotekë të përshtatshme për analizën e të dhënave në Python.

Mesazhe të ngjashme:

Lini një koment