У свету анализе података, руковање великим скуповима података може бити застрашујући задатак. Један од битних делова овог процеса је филтрирање података како би се добиле релевантне информације. Када је у питању Питхон, моћна библиотека панде долази нам у помоћ. У овом чланку ћемо разговарати како филтрирати све колоне у пандас ДатаФраме-у. Проћи ћемо кроз објашњење кода корак по корак и пружити дубоко разумевање библиотека и функција које се могу користити за сличне проблеме.
Представљамо панде
је библиотека отвореног кода која пружа структуре података једноставне за коришћење и алате за анализу података за програмски језик Питхон. Он игра значајну улогу у екосистему науке о подацима и постао је неопходан алат за сваког научника или аналитичара података који ради са Питхоном. Међу својим карактеристикама, панде нуде две примарне структуре података: Оквир података Серија. ДатаФраме је дводимензионална табела са означеним осама (редови и колоне), док је серија једнодимензионални означени низ.
У овом чланку ћемо се фокусирати на филтрирање специфичних вредности присутних у било којој колони пандас ДатаФраме-а. Да бисмо то урадили, користићемо панде .је у() функција заједно са логичким маскирањем.
Филтрирање оквира података
Да бисте филтрирали ДатаФраме у пандама, пратите ове кораке:
1. Увезите библиотеку панда
2. Креирајте ДатаФраме или га учитајте из датотеке
3. Дефинишите вредности које желите да филтрирате
4. Примените филтер користећи функцију `.исин()` и логичко маскирање
5. Прикажите филтрирани ДатаФраме
Хајде да заронимо у код да бисмо разумели како функционише.
import pandas as pd # Creating a DataFrame data = {'Column1': [1, 2, 3, 4, 5], 'Column2': [10, 20, 30, 40, 50], 'Column3': ['A', 'B', 'A', 'B', 'A']} df = pd.DataFrame(data) # Define the values to filter filter_values = [1, 3, 5, 'A'] # Apply the filter using .isin() and boolean masking filtered_df = df[df.isin(filter_values).any(axis=1)] # Display the filtered DataFrame print(filtered_df)
У овом примеру прво увозимо библиотеку пандас и креирамо ДатаФраме са три колоне. Дефинишемо вредности које желимо да филтрирамо (1, 3, 5 и 'А') и примењујемо филтер користећи функцију `.исин()` у комбинацији са логичким маскирањем. Функција `ани(акис=1)` проверава да ли било која вредност у реду испуњава критеријуме филтрирања. На крају, штампамо филтрирани ДатаФраме.
Функција .исин() и логичко маскирање
.је у() функција у пандама је свестран алат за филтрирање података на основу листе или скупа вредности. Враћа логички ДатаФраме истог облика као и оригинални, указујући који елементи су присутни на датој листи или скупу. У нашем случају, ми прослеђујемо листу вредности које желимо да филтрирамо.
Булово маскирање је техника која се користи у пандама за филтрирање података по елементима. Састоји се од примене логичке маске (низ тачних и нетачних вредности) на структуру података ради филтрирања њених елемената. У контексту нашег проблема, користимо логичко маскирање заједно са функцијом .исин() да бисмо добили редове који садрже жељене вредности.
Са јасним разумевањем библиотеке панда, структура ДатаФраме-а и функције .исин(), можемо ефикасно филтрирати било који пандас ДатаФраме. Ове технике нам омогућавају да истражујемо велике скупове података и извлачимо вредне увиде са лакоћом, чинећи панде библиотеком за анализу података у Питхон-у.