সমাধান করা হয়েছে: পান্ডায় সমস্ত কলাম ফিল্টার করুন

ডেটা বিশ্লেষণের জগতে, বড় ডেটাসেটগুলি পরিচালনা করা একটি কঠিন কাজ হতে পারে। এই প্রক্রিয়ার একটি অপরিহার্য অংশ হল প্রাসঙ্গিক তথ্য পেতে ডেটা ফিল্টার করা। যখন পাইথনের কথা আসে, শক্তিশালী লাইব্রেরি পান্ডাস আমাদের সাহায্যে আসে। এই নিবন্ধে, আমরা আলোচনা করব কিভাবে একটি পান্ডাস ডেটাফ্রেমে সমস্ত কলাম ফিল্টার করবেন. আমরা কোডের ধাপে ধাপে ব্যাখ্যা করব এবং লাইব্রেরি এবং ফাংশনগুলির একটি গভীর উপলব্ধি প্রদান করব যা অনুরূপ সমস্যার জন্য ব্যবহার করা যেতে পারে।

পান্ডাদের সাথে পরিচয় করিয়ে দেওয়া হচ্ছে

একটি ওপেন-সোর্স লাইব্রেরি যা পাইথন প্রোগ্রামিং ভাষার জন্য সহজে ব্যবহারযোগ্য ডেটা স্ট্রাকচার এবং ডেটা বিশ্লেষণ টুল সরবরাহ করে। এটি ডেটা সায়েন্স ইকোসিস্টেমে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে এবং পাইথনের সাথে কাজ করা যেকোন ডেটা বিজ্ঞানী বা বিশ্লেষকের জন্য এটি একটি অপরিহার্য হাতিয়ার হয়ে উঠেছে। এর বৈশিষ্ট্যগুলির মধ্যে, পান্ডা দুটি প্রাথমিক ডেটা কাঠামো অফার করে: ডেটাফ্রেম এবং ক্রম. একটি ডেটাফ্রেম হল লেবেলযুক্ত অক্ষ (সারি এবং কলাম) সহ একটি দ্বি-মাত্রিক টেবিল, যখন একটি সিরিজ হল একটি এক-মাত্রিক লেবেলযুক্ত অ্যারে।

এই নিবন্ধটির জন্য, আমরা একটি পান্ডা ডেটাফ্রেমের যে কোনও কলামে উপস্থিত নির্দিষ্ট মানগুলি ফিল্টার করার উপর ফোকাস করব। এটি করার জন্য, আমরা পান্ডা ব্যবহার করব .isin() বুলিয়ান মাস্কিং সহ ফাংশন।

একটি ডেটাফ্রেম ফিল্টার করা

পান্ডায় একটি ডেটাফ্রেম ফিল্টার করতে, এই পদক্ষেপগুলি অনুসরণ করুন:

1. পান্ডাস লাইব্রেরি আমদানি করুন
2. একটি ডেটাফ্রেম তৈরি করুন বা এটি একটি ফাইল থেকে লোড করুন৷
3. আপনি ফিল্টার করতে চান মান নির্ধারণ করুন
4. `.isin()` ফাংশন এবং বুলিয়ান মাস্কিং ব্যবহার করে ফিল্টারটি প্রয়োগ করুন
5. ফিল্টার করা DataFrame প্রদর্শন করুন

এটা কিভাবে কাজ করে তা বোঝার জন্য এর কোডে ডুব দেওয়া যাক।

import pandas as pd

# Creating a DataFrame
data = {'Column1': [1, 2, 3, 4, 5],
        'Column2': [10, 20, 30, 40, 50],
        'Column3': ['A', 'B', 'A', 'B', 'A']}
df = pd.DataFrame(data)

# Define the values to filter
filter_values = [1, 3, 5, 'A']

# Apply the filter using .isin() and boolean masking
filtered_df = df[df.isin(filter_values).any(axis=1)]

# Display the filtered DataFrame
print(filtered_df)

এই উদাহরণে, আমরা প্রথমে পান্ডাস লাইব্রেরি আমদানি করি এবং তিনটি কলাম সহ একটি ডেটাফ্রেম তৈরি করি। আমরা যে মানগুলি ফিল্টার করতে চাই তা নির্ধারণ করি (1, 3, 5, এবং 'A') এবং বুলিয়ান মাস্কিংয়ের সাথে মিলিত `.isin()` ফাংশন ব্যবহার করে ফিল্টারটি প্রয়োগ করি। `any(axis=1)` ফাংশনটি পরীক্ষা করে যে একটি সারির মধ্যে কোনো মান ফিল্টারিংয়ের মানদণ্ড পূরণ করে কিনা। অবশেষে, আমরা ফিল্টার করা DataFrame প্রিন্ট করি।

.isin() ফাংশন এবং বুলিয়ান মাস্কিং

সার্জারির .isin() পান্ডাসে ফাংশন একটি তালিকা বা মান সেটের উপর ভিত্তি করে ডেটা ফিল্টার করার জন্য একটি বহুমুখী টুল। এটি মূলের মতো একই আকৃতির একটি বুলিয়ান ডেটাফ্রেম প্রদান করে, যা নির্দেশ করে যে কোন উপাদানগুলি প্রদত্ত তালিকা বা সেটে উপস্থিত রয়েছে। আমাদের ক্ষেত্রে, আমরা ফিল্টার করতে চাই এমন মানগুলির একটি তালিকা পাস করি।

বুলিয়ান মাস্কিং হল একটি কৌশল যা পান্ডাগুলিতে উপাদান-ভিত্তিক ডেটা ফিল্টারিংয়ের জন্য ব্যবহৃত হয়। এটির উপাদানগুলি ফিল্টার করার জন্য একটি ডেটা কাঠামোতে একটি বুলিয়ান মাস্ক (সত্য এবং মিথ্যা মানগুলির একটি অ্যারে) প্রয়োগ করে। আমাদের সমস্যার পরিপ্রেক্ষিতে, আমরা .isin() ফাংশনের সাথে বুলিয়ান মাস্কিং ব্যবহার করি কাঙ্খিত মান সম্বলিত সারিগুলি পুনরুদ্ধার করতে।

পান্ডাস লাইব্রেরি, ডেটাফ্রেম স্ট্রাকচার এবং .isin() ফাংশন সম্পর্কে পরিষ্কার বোঝার সাথে, আমরা কার্যকরভাবে যে কোনও পান্ডা ডেটাফ্রেম ফিল্টার করতে পারি। এই কৌশলগুলি আমাদের বড় ডেটাসেটগুলি অন্বেষণ করতে এবং সহজে মূল্যবান অন্তর্দৃষ্টি বের করতে দেয়, যা পাইথনে ডেটা বিশ্লেষণের জন্য পান্ডাদের একটি গো-টু লাইব্রেরিতে পরিণত করে৷

সম্পর্কিত পোস্ট:

মতামত দিন