Pandas é uma biblioteca de manipulação de dados de código aberto amplamente usada para Python. Ele fornece estruturas de dados e funções necessárias para manipular e analisar efetivamente grandes conjuntos de dados. Um problema comum que cientistas e analistas de dados encontram ao usar pandas é lidar com valores ausentes no conjunto de dados. Neste artigo, exploraremos como contar o número de valores ausentes em um DataFrame pandas usando várias técnicas, explicações passo a passo do código e nos aprofundaremos em algumas das bibliotecas e funções envolvidas na solução desse problema.
Contando valores ausentes em pandas
Para começar, precisamos primeiro importar a biblioteca pandas. Se você ainda não o instalou, basta executar o comando `pip install pandas` em seu terminal ou prompt de comando.
import pandas as pd
Depois de importar a biblioteca pandas, vamos criar um exemplo de DataFrame com valores ausentes, que usaremos ao longo deste artigo para demonstrar diferentes técnicas de contagem de valores ausentes.
data = { 'Name': ['Anna', 'Ben', 'Carla', None, 'Eva'], 'Age': [25, None, 30, 35, None], 'City': ['NY', 'LA', None, 'SF', 'LA'] } df = pd.DataFrame(data)
Neste exemplo, temos um DataFrame com três colunas: Nome, Idade e Cidade. Existem alguns valores ausentes, que encontraremos e contaremos na próxima seção.
Encontrando e contando valores ausentes usando isnull() e sum()
O primeiro método para contar valores ausentes em um DataFrame pandas é usando o é nulo() função. Esta função retorna um DataFrame com a mesma forma do original, mas com valores True ou False indicando se a entrada correspondente está faltando (ou seja, contém None ou NaN) ou não.
missing_values = df.isnull()
Agora temos um DataFrame da mesma forma, com valores True indicando entradas ausentes. Para contar esses valores ausentes, podemos simplesmente usar o soma() função. Ao usá-lo no DataFrame, podemos obter o número de valores ausentes para cada coluna.
count_missing_values = df.isnull().sum()
Isso nos dará uma série de pandas com o número de valores ausentes para cada coluna em nosso DataFrame.
Abordagem alternativa: usando isna() e sum()
Outra abordagem para contar valores ausentes em um DataFrame pandas é usando o não() função. É um alias para isnull() e funciona da mesma forma.
count_missing_values = df.isna().sum()
Isso dará o mesmo resultado da abordagem anterior, contando o número de valores ausentes para cada coluna em nosso DataFrame.
Contando valores ausentes em todo o DataFrame
Se quisermos encontrar o número total de valores ausentes em todo o DataFrame, podemos simplesmente encadear outro soma() após a primeira função sum().
total_missing_values = df.isnull().sum().sum()
Isso retornará o número total de valores ausentes em todo o DataFrame.
Em resumo, lidar com valores ausentes em pandas é uma etapa crucial na fase de limpeza e pré-processamento de dados. Ao usar as funções isnull() ou isna(), em combinação com a função sum(), podemos contar com eficiência o número de valores ausentes em nosso DataFrame, facilitando o tratamento e o gerenciamento de problemas de dados ausentes em nossa análise.