ಪರಿಹರಿಸಲಾಗಿದೆ: ಪಾಂಡಾಗಳಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ಪಡೆಯುವುದು

Pandas ಪೈಥಾನ್‌ಗಾಗಿ ವ್ಯಾಪಕವಾಗಿ ಬಳಸಲಾಗುವ ಓಪನ್ ಸೋರ್ಸ್ ಡೇಟಾ ಮ್ಯಾನಿಪ್ಯುಲೇಶನ್ ಲೈಬ್ರರಿಯಾಗಿದೆ. ಇದು ದೊಡ್ಡ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ನಿರ್ವಹಿಸಲು ಮತ್ತು ವಿಶ್ಲೇಷಿಸಲು ಅಗತ್ಯವಿರುವ ಡೇಟಾ ರಚನೆಗಳು ಮತ್ತು ಕಾರ್ಯಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ಪಾಂಡಾಗಳನ್ನು ಬಳಸುವಾಗ ಡೇಟಾ ವಿಜ್ಞಾನಿಗಳು ಮತ್ತು ವಿಶ್ಲೇಷಕರು ಎದುರಿಸುವ ಒಂದು ಸಾಮಾನ್ಯ ಸಮಸ್ಯೆ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸುವುದು. ಈ ಲೇಖನದಲ್ಲಿ, ವಿವಿಧ ತಂತ್ರಗಳು, ಕೋಡ್‌ನ ಹಂತ-ಹಂತದ ವಿವರಣೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಪಾಂಡಾಸ್ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ಹೇಗೆ ಎಣಿಸುವುದು ಮತ್ತು ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸುವಲ್ಲಿ ಒಳಗೊಂಡಿರುವ ಕೆಲವು ಲೈಬ್ರರಿಗಳು ಮತ್ತು ಕಾರ್ಯಗಳನ್ನು ಆಳವಾಗಿ ಅಧ್ಯಯನ ಮಾಡುವುದು ಹೇಗೆ ಎಂದು ನಾವು ಅನ್ವೇಷಿಸುತ್ತೇವೆ.

ಪಾಂಡಾಗಳಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸುವುದು

ಪ್ರಾರಂಭಿಸಲು, ನಾವು ಮೊದಲು ಪಾಂಡಾಗಳ ಲೈಬ್ರರಿಯನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳಬೇಕು. ನೀವು ಇದನ್ನು ಇನ್ನೂ ಸ್ಥಾಪಿಸದಿದ್ದರೆ, ನಿಮ್ಮ ಟರ್ಮಿನಲ್ ಅಥವಾ ಕಮಾಂಡ್ ಪ್ರಾಂಪ್ಟ್‌ನಲ್ಲಿ `ಪಿಪ್ ಇನ್‌ಸ್ಟಾಲ್ ಪಾಂಡಾಸ್' ಆಜ್ಞೆಯನ್ನು ಚಲಾಯಿಸಿ.

import pandas as pd

ಒಮ್ಮೆ ನಾವು ಪಾಂಡಾಗಳ ಲೈಬ್ರರಿಯನ್ನು ಆಮದು ಮಾಡಿಕೊಂಡ ನಂತರ, ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳೊಂದಿಗೆ ಮಾದರಿ ಡೇಟಾಫ್ರೇಮ್ ಅನ್ನು ರಚಿಸೋಣ, ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸುವ ವಿವಿಧ ತಂತ್ರಗಳನ್ನು ಪ್ರದರ್ಶಿಸಲು ನಾವು ಈ ಲೇಖನದ ಉದ್ದಕ್ಕೂ ಬಳಸುತ್ತೇವೆ.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

ಈ ಉದಾಹರಣೆಯಲ್ಲಿ, ನಾವು ಮೂರು ಕಾಲಮ್‌ಗಳೊಂದಿಗೆ ಡೇಟಾಫ್ರೇಮ್ ಅನ್ನು ಹೊಂದಿದ್ದೇವೆ: ಹೆಸರು, ವಯಸ್ಸು ಮತ್ತು ನಗರ. ಕೆಲವು ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳಿವೆ, ಅದನ್ನು ನಾವು ಮುಂದಿನ ವಿಭಾಗದಲ್ಲಿ ಕಂಡುಹಿಡಿಯುತ್ತೇವೆ ಮತ್ತು ಎಣಿಕೆ ಮಾಡುತ್ತೇವೆ.

isnull() ಮತ್ತು ಮೊತ್ತ() ಬಳಸಿಕೊಂಡು ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಮತ್ತು ಎಣಿಸುವುದು

ಪಾಂಡಾಸ್ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸುವ ಮೊದಲ ವಿಧಾನವೆಂದರೆ ಇದನ್ನು ಬಳಸುವುದು isnull() ಕಾರ್ಯ. ಈ ಕಾರ್ಯವು ಮೂಲದಂತೆ ಅದೇ ಆಕಾರದ ಡೇಟಾಫ್ರೇಮ್ ಅನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ, ಆದರೆ ಸರಿ ಅಥವಾ ತಪ್ಪು ಮೌಲ್ಯಗಳೊಂದಿಗೆ ಅನುಗುಣವಾದ ನಮೂದು ಕಾಣೆಯಾಗಿದೆಯೇ (ಅಂದರೆ, ಯಾವುದೂ ಇಲ್ಲ ಅಥವಾ NaN ಅನ್ನು ಹೊಂದಿದೆ) ಅಥವಾ ಇಲ್ಲವೇ ಎಂಬುದನ್ನು ಸೂಚಿಸುತ್ತದೆ.

missing_values = df.isnull()

ಈಗ ನಾವು ಅದೇ ಆಕಾರದ ಡೇಟಾಫ್ರೇಮ್ ಅನ್ನು ಹೊಂದಿದ್ದೇವೆ, ಕಾಣೆಯಾದ ನಮೂದುಗಳನ್ನು ಸೂಚಿಸುವ ನಿಜವಾದ ಮೌಲ್ಯಗಳೊಂದಿಗೆ. ಈ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸಲು, ನಾವು ಸರಳವಾಗಿ ಬಳಸಬಹುದು ಮೊತ್ತ () ಕಾರ್ಯ. DataFrame ಮೂಲಕ ಅದನ್ನು ಬಳಸುವ ಮೂಲಕ, ನಾವು ಪ್ರತಿ ಕಾಲಮ್‌ಗೆ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ಪಡೆಯಬಹುದು.

count_missing_values = df.isnull().sum()

ಇದು ನಮ್ಮ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿನ ಪ್ರತಿ ಕಾಲಮ್‌ಗೆ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ಹೊಂದಿರುವ ಪಾಂಡಾಗಳ ಸರಣಿಯನ್ನು ನಮಗೆ ನೀಡುತ್ತದೆ.

ಪರ್ಯಾಯ ವಿಧಾನ: isna() ಮತ್ತು ಮೊತ್ತ() ಬಳಸುವುದು

ಪಾಂಡಾಸ್ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸುವ ಇನ್ನೊಂದು ವಿಧಾನವೆಂದರೆ ಇದನ್ನು ಬಳಸುವುದು isna() ಕಾರ್ಯ. ಇದು isnull() ಗೆ ಅಲಿಯಾಸ್ ಆಗಿದೆ ಮತ್ತು ಅದೇ ರೀತಿಯಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ.

count_missing_values = df.isna().sum()

ಇದು ಹಿಂದಿನ ವಿಧಾನದಂತೆಯೇ ಅದೇ ಫಲಿತಾಂಶವನ್ನು ನೀಡುತ್ತದೆ, ನಮ್ಮ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿನ ಪ್ರತಿ ಕಾಲಮ್‌ಗೆ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ಎಣಿಸುತ್ತದೆ.

ಸಂಪೂರ್ಣ ಡೇಟಾ ಫ್ರೇಮ್‌ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಎಣಿಸುವುದು

ಸಂಪೂರ್ಣ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಒಟ್ಟು ಸಂಖ್ಯೆಯನ್ನು ಕಂಡುಹಿಡಿಯಲು ನಾವು ಬಯಸಿದರೆ, ನಾವು ಇನ್ನೊಂದನ್ನು ಸರಳವಾಗಿ ಚೈನ್ ಮಾಡಬಹುದು ಮೊತ್ತ () ಮೊದಲ ಮೊತ್ತ () ಕಾರ್ಯದ ನಂತರ ಕಾರ್ಯ.

total_missing_values = df.isnull().sum().sum()

ಇದು ಸಂಪೂರ್ಣ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಒಟ್ಟು ಸಂಖ್ಯೆಯನ್ನು ಹಿಂತಿರುಗಿಸುತ್ತದೆ.

ಸಾರಾಂಶದಲ್ಲಿ, ಪಾಂಡಾಗಳಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸುವುದು ಡೇಟಾ ಕ್ಲೀನಿಂಗ್ ಮತ್ತು ಪೂರ್ವ-ಸಂಸ್ಕರಣೆ ಹಂತದಲ್ಲಿ ನಿರ್ಣಾಯಕ ಹಂತವಾಗಿದೆ. isnull() ಅಥವಾ isna() ಫಂಕ್ಷನ್‌ಗಳನ್ನು ಬಳಸುವುದರ ಮೂಲಕ, ಮೊತ್ತ() ಫಂಕ್ಷನ್‌ನ ಸಂಯೋಜನೆಯಲ್ಲಿ, ನಮ್ಮ ಡೇಟಾಫ್ರೇಮ್‌ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ನಾವು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಎಣಿಸಬಹುದು, ನಮ್ಮ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಕಾಣೆಯಾದ ಡೇಟಾ ಸಮಸ್ಯೆಗಳನ್ನು ಪರಿಹರಿಸಲು ಮತ್ತು ನಿರ್ವಹಿಸಲು ಸುಲಭವಾಗುತ್ತದೆ.

ಸಂಬಂಧಿತ ಪೋಸ್ಟ್ಗಳು:

ಒಂದು ಕಮೆಂಟನ್ನು ಬಿಡಿ