সমাধান করা হয়েছে: পান্ডাতে অনুপস্থিত মানগুলির সংখ্যা পাওয়া

পান্ডাস পাইথনের জন্য একটি বহুল ব্যবহৃত ওপেন সোর্স ডেটা ম্যানিপুলেশন লাইব্রেরি। এটি বড় ডেটাসেটগুলিকে কার্যকরভাবে ম্যানিপুলেট এবং বিশ্লেষণ করার জন্য প্রয়োজনীয় ডেটা স্ট্রাকচার এবং ফাংশন সরবরাহ করে। পান্ডা ব্যবহার করার সময় ডেটা বিজ্ঞানী এবং বিশ্লেষকদের একটি সাধারণ সমস্যা হল ডেটাসেটে অনুপস্থিত মানগুলি পরিচালনা করা। এই প্রবন্ধে, আমরা বিভিন্ন কৌশল, কোডের ধাপে ধাপে ব্যাখ্যা ব্যবহার করে কীভাবে একটি পান্ডা ডেটাফ্রেমে অনুপস্থিত মান গণনা করব এবং এই সমস্যা সমাধানে জড়িত কিছু লাইব্রেরি এবং ফাংশনগুলির গভীরে অনুসন্ধান করব।

পান্ডাসে অনুপস্থিত মান গণনা করা হচ্ছে

শুরু করার জন্য, আমাদের প্রথমে পান্ডাস লাইব্রেরি আমদানি করতে হবে। আপনি যদি এটি এখনও ইনস্টল না করে থাকেন, তাহলে আপনার টার্মিনাল বা কমান্ড প্রম্পটে শুধু `pip install pandas` কমান্ডটি চালান।

import pandas as pd

একবার আমরা পান্ডাস লাইব্রেরি আমদানি করার পরে, অনুপস্থিত মানগুলির সাথে একটি নমুনা ডেটাফ্রেম তৈরি করি, যা আমরা এই নিবন্ধে অনুপস্থিত মান গণনার বিভিন্ন কৌশল প্রদর্শন করতে ব্যবহার করব।

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

এই উদাহরণে, আমাদের কাছে তিনটি কলাম সহ একটি ডেটাফ্রেম রয়েছে: নাম, বয়স এবং শহর। কিছু অনুপস্থিত মান আছে, যা আমরা পরবর্তী বিভাগে খুঁজে বের করব এবং গণনা করব।

isnull() এবং sum() ব্যবহার করে অনুপস্থিত মানগুলি সন্ধান করা এবং গণনা করা

একটি পান্ডাস ডেটাফ্রেমে অনুপস্থিত মান গণনা করার প্রথম পদ্ধতিটি ব্যবহার করে isnull() ফাংশন এই ফাংশনটি মূলের মতো একই আকৃতির একটি ডেটাফ্রেম ফেরত দেয়, কিন্তু সত্য বা মিথ্যা মানগুলি নির্দেশ করে যে সংশ্লিষ্ট এন্ট্রিটি অনুপস্থিত কিনা (অর্থাৎ, কোনটি বা NaN নেই) বা না।

missing_values = df.isnull()

এখন আমাদের কাছে একই আকৃতির একটি ডেটাফ্রেম আছে, সত্য মানগুলি অনুপস্থিত এন্ট্রি নির্দেশ করে। এই অনুপস্থিত মানগুলি গণনা করতে, আমরা কেবল ব্যবহার করতে পারি যোগফল() ফাংশন ডেটাফ্রেমে এটি ব্যবহার করে, আমরা প্রতিটি কলামের জন্য অনুপস্থিত মানগুলির সংখ্যা পেতে পারি।

count_missing_values = df.isnull().sum()

এটি আমাদের ডেটাফ্রেমের প্রতিটি কলামের অনুপস্থিত মানের সংখ্যা সহ একটি পান্ডাস সিরিজ দেবে।

বিকল্প পদ্ধতি: isna() এবং sum() ব্যবহার করে

একটি পান্ডাস ডেটাফ্রেমে অনুপস্থিত মান গণনা করার আরেকটি পদ্ধতি হল ব্যবহার করে ইসনা() ফাংশন এটি isnull() এর একটি উপনাম এবং একই ভাবে কাজ করে।

count_missing_values = df.isna().sum()

এটি আমাদের ডেটাফ্রেমের প্রতিটি কলামের জন্য অনুপস্থিত মানের সংখ্যা গণনা করে আগের পদ্ধতির মতো একই ফলাফল দেবে।

সমগ্র ডেটাফ্রেমে অনুপস্থিত মান গণনা করা হচ্ছে

আমরা যদি সমগ্র ডেটাফ্রেমে অনুপস্থিত মানগুলির মোট সংখ্যা খুঁজে পেতে চাই তবে আমরা কেবল আরেকটি চেইন করতে পারি যোগফল() প্রথম sum() ফাংশনের পরে ফাংশন।

total_missing_values = df.isnull().sum().sum()

এটি সমগ্র ডেটাফ্রেমে অনুপস্থিত মানগুলির মোট সংখ্যা প্রদান করবে।

সংক্ষেপে, পান্ডাতে অনুপস্থিত মানগুলি পরিচালনা করা ডেটা পরিষ্কার এবং প্রাক-প্রক্রিয়াকরণ পর্যায়ে একটি গুরুত্বপূর্ণ পদক্ষেপ। sum() ফাংশনের সংমিশ্রণে isnull() বা isna() ফাংশন ব্যবহার করে, আমরা দক্ষতার সাথে আমাদের ডেটাফ্রেমে অনুপস্থিত মানগুলির সংখ্যা গণনা করতে পারি, যা আমাদের বিশ্লেষণে অনুপস্থিত ডেটা সমস্যাগুলিকে মোকাবেলা করা এবং পরিচালনা করা সহজ করে তোলে।

সম্পর্কিত পোস্ট:

মতামত দিন