해결됨: 팬더에서 누락된 값의 수 가져오기

Pandas는 널리 사용되는 Python용 오픈 소스 데이터 조작 라이브러리입니다. 대용량 데이터 세트를 효과적으로 조작하고 분석하는 데 필요한 데이터 구조와 기능을 제공합니다. 데이터 과학자와 분석가가 pandas를 사용하는 동안 발생하는 일반적인 문제 중 하나는 데이터 세트에서 누락된 값을 처리하는 것입니다. 이 기사에서는 다양한 기술, 코드에 대한 단계별 설명을 사용하여 pandas DataFrame에서 누락된 값의 수를 계산하는 방법을 살펴보고 이 문제를 해결하는 데 관련된 일부 라이브러리 및 함수에 대해 자세히 알아봅니다.

Pandas에서 누락된 값 계산

시작하려면 먼저 pandas 라이브러리를 가져와야 합니다. 아직 설치하지 않았다면 터미널이나 명령 프롬프트에서 `pip install pandas` 명령을 실행하세요.

import pandas as pd

pandas 라이브러리를 가져오면 누락된 값이 있는 샘플 DataFrame을 만들어 보겠습니다. 이 문서 전체에서 이를 사용하여 누락된 값을 계산하는 다양한 기술을 보여줍니다.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

이 예에는 Name, Age, City라는 세 개의 열이 있는 DataFrame이 있습니다. 몇 가지 누락된 값이 있으며 다음 섹션에서 찾아서 계산할 것입니다.

isnull() 및 sum()을 사용하여 누락된 값 찾기 및 계산

pandas DataFrame에서 누락된 값을 계산하는 첫 번째 방법은 다음을 사용하는 것입니다. isnull() 기능. 이 함수는 원본과 모양이 같지만 해당 항목이 누락되었는지(즉, None 또는 NaN 포함) 여부를 나타내는 True 또는 False 값을 가진 DataFrame을 반환합니다.

missing_values = df.isnull()

이제 동일한 모양의 DataFrame이 있으며 True 값은 누락된 항목을 나타냅니다. 이러한 누락된 값을 계산하려면 간단히 다음을 사용할 수 있습니다. 합집합() 기능. DataFrame에서 이를 사용하면 각 열에 대해 누락된 값의 수를 얻을 수 있습니다.

count_missing_values = df.isnull().sum()

이렇게 하면 DataFrame의 각 열에 대해 누락된 값의 수가 있는 pandas 시리즈가 제공됩니다.

대체 접근 방식: isna() 및 sum() 사용

pandas DataFrame에서 누락된 값을 계산하는 또 다른 방법은 다음을 사용하는 것입니다. 이사나() 기능. isnull()의 별칭이며 동일한 방식으로 작동합니다.

count_missing_values = df.isna().sum()

이는 DataFrame의 각 열에 대해 누락된 값의 수를 세는 이전 접근 방식과 동일한 결과를 제공합니다.

전체 DataFrame에서 누락된 값 계산

전체 DataFrame에서 누락된 값의 총 수를 찾으려면 단순히 다른 체인을 연결할 수 있습니다. 합집합() 첫 번째 sum() 함수 다음 함수.

total_missing_values = df.isnull().sum().sum()

그러면 전체 DataFrame에서 누락된 값의 총 개수가 반환됩니다.

요약하면 Pandas에서 누락된 값을 처리하는 것은 데이터 정리 및 사전 처리 단계에서 중요한 단계입니다. sum() 함수와 함께 isnull() 또는 isna() 함수를 사용하면 DataFrame에서 누락된 값의 수를 효율적으로 계산할 수 있으므로 분석에서 누락된 데이터 문제를 보다 쉽게 ​​해결하고 관리할 수 있습니다.

관련 게시물:

코멘트 남김