Resolvido: obtendo o número de valores ausentes em pandas

Pandas é uma biblioteca de manipulação de dados de código aberto amplamente usada para Python. Ele fornece estruturas de dados e funções necessárias para manipular e analisar efetivamente grandes conjuntos de dados. Um problema comum que cientistas e analistas de dados encontram ao usar pandas é lidar com valores ausentes no conjunto de dados. Neste artigo, exploraremos como contar o número de valores ausentes em um DataFrame pandas usando várias técnicas, explicações passo a passo do código e nos aprofundaremos em algumas das bibliotecas e funções envolvidas na solução desse problema.

Contando valores ausentes em pandas

Para começar, precisamos primeiro importar a biblioteca pandas. Se você ainda não o instalou, basta executar o comando `pip install pandas` em seu terminal ou prompt de comando.

import pandas as pd

Depois de importar a biblioteca pandas, vamos criar um exemplo de DataFrame com valores ausentes, que usaremos ao longo deste artigo para demonstrar diferentes técnicas de contagem de valores ausentes.

data = {
    'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'],
    'Age': [25, None, 30, 35, None],
    'City': ['NY', 'LA', None, 'SF', 'LA']
}

df = pd.DataFrame(data)

Neste exemplo, temos um DataFrame com três colunas: Nome, Idade e Cidade. Existem alguns valores ausentes, que encontraremos e contaremos na próxima seção.

Encontrando e contando valores ausentes usando isnull() e sum()

O primeiro método para contar valores ausentes em um DataFrame pandas é usando o é nulo() função. Esta função retorna um DataFrame com a mesma forma do original, mas com valores True ou False indicando se a entrada correspondente está faltando (ou seja, contém None ou NaN) ou não.

missing_values = df.isnull()

Agora temos um DataFrame da mesma forma, com valores True indicando entradas ausentes. Para contar esses valores ausentes, podemos simplesmente usar o soma() função. Ao usá-lo no DataFrame, podemos obter o número de valores ausentes para cada coluna.

count_missing_values = df.isnull().sum()

Isso nos dará uma série de pandas com o número de valores ausentes para cada coluna em nosso DataFrame.

Abordagem alternativa: usando isna() e sum()

Outra abordagem para contar valores ausentes em um DataFrame pandas é usando o não() função. É um alias para isnull() e funciona da mesma forma.

count_missing_values = df.isna().sum()

Isso dará o mesmo resultado da abordagem anterior, contando o número de valores ausentes para cada coluna em nosso DataFrame.

Contando valores ausentes em todo o DataFrame

Se quisermos encontrar o número total de valores ausentes em todo o DataFrame, podemos simplesmente encadear outro soma() após a primeira função sum().

total_missing_values = df.isnull().sum().sum()

Isso retornará o número total de valores ausentes em todo o DataFrame.

Em resumo, lidar com valores ausentes em pandas é uma etapa crucial na fase de limpeza e pré-processamento de dados. Ao usar as funções isnull() ou isna(), em combinação com a função sum(), podemos contar com eficiência o número de valores ausentes em nosso DataFrame, facilitando o tratamento e o gerenciamento de problemas de dados ausentes em nossa análise.

Artigos relacionados:

Deixe um comentário