Решено: филтрирајте све колоне у пандама

У свету анализе података, руковање великим скуповима података може бити застрашујући задатак. Један од битних делова овог процеса је филтрирање података како би се добиле релевантне информације. Када је у питању Питхон, моћна библиотека панде долази нам у помоћ. У овом чланку ћемо разговарати како филтрирати све колоне у пандас ДатаФраме-у. Проћи ћемо кроз објашњење кода корак по корак и пружити дубоко разумевање библиотека и функција које се могу користити за сличне проблеме.

Представљамо панде

је библиотека отвореног кода која пружа структуре података једноставне за коришћење и алате за анализу података за програмски језик Питхон. Он игра значајну улогу у екосистему науке о подацима и постао је неопходан алат за сваког научника или аналитичара података који ради са Питхоном. Међу својим карактеристикама, панде нуде две примарне структуре података: Оквир података Серија. ДатаФраме је дводимензионална табела са означеним осама (редови и колоне), док је серија једнодимензионални означени низ.

У овом чланку ћемо се фокусирати на филтрирање специфичних вредности присутних у било којој колони пандас ДатаФраме-а. Да бисмо то урадили, користићемо панде .је у() функција заједно са логичким маскирањем.

Филтрирање оквира података

Да бисте филтрирали ДатаФраме у пандама, пратите ове кораке:

1. Увезите библиотеку панда
2. Креирајте ДатаФраме или га учитајте из датотеке
3. Дефинишите вредности које желите да филтрирате
4. Примените филтер користећи функцију `.исин()` и логичко маскирање
5. Прикажите филтрирани ДатаФраме

Хајде да заронимо у код да бисмо разумели како функционише.

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

У овом примеру прво увозимо библиотеку пандас и креирамо ДатаФраме са три колоне. Дефинишемо вредности које желимо да филтрирамо (1, 3, 5 и 'А') и примењујемо филтер користећи функцију `.исин()` у комбинацији са логичким маскирањем. Функција `ани(акис=1)` проверава да ли било која вредност у реду испуњава критеријуме филтрирања. На крају, штампамо филтрирани ДатаФраме.

Функција .исин() и логичко маскирање

.је у() функција у пандама је свестран алат за филтрирање података на основу листе или скупа вредности. Враћа логички ДатаФраме истог облика као и оригинални, указујући који елементи су присутни на датој листи или скупу. У нашем случају, ми прослеђујемо листу вредности које желимо да филтрирамо.

Булово маскирање је техника која се користи у пандама за филтрирање података по елементима. Састоји се од примене логичке маске (низ тачних и нетачних вредности) на структуру података ради филтрирања њених елемената. У контексту нашег проблема, користимо логичко маскирање заједно са функцијом .исин() да бисмо добили редове који садрже жељене вредности.

Са јасним разумевањем библиотеке панда, структура ДатаФраме-а и функције .исин(), можемо ефикасно филтрирати било који пандас ДатаФраме. Ове технике нам омогућавају да истражујемо велике скупове података и извлачимо вредне увиде са лакоћом, чинећи панде библиотеком за анализу података у Питхон-у.

Релатед постс:

Оставите коментар