O que é limpeza de dados?

A limpeza de dados é um processo essencial para preparar dados brutos para aplicações de machine learning (ML) e business intelligence (BI). Dados brutos podem conter vários erros, que podem afetar a precisão dos modelos de ML e levar a previsões incorretas e causar um impacto negativo nos negócios. 

As principais etapas da limpeza de dados incluem: modificar e remover campos de dados incorretos ou incompletos, identificar e remover informações duplicadas ou dados não relacionados e corrigir formatação, valores ausentes ou erros de ortografia.

Por que a limpeza de dados é importante?

Quando uma empresa usa dados para orientar a tomada de decisões, é crucial utilizar dados relevantes, completos e precisos. Porém, os conjuntos de dados muitas vezes contêm erros que precisam ser removidos antes da análise. Por exemplo, erros de formatação, como datas, unidades monetárias e unidades de medida escritas incorretamente podem afetar consideravelmente as previsões. As exceções são uma preocupação específica, pois distorcem os resultados invariavelmente. Outros exemplos de erros de dados bastante encontrados são: pontos de dados corrompidos, informações ausentes e erros tipográficos. A limpeza de dados pode ajudar em modelos de ML altamente precisos. 

Dados limpos e precisos são cruciais sobretudo para o treinamento de modelos de ML, pois o uso de conjuntos de dados de treinamento inadequados pode resultar em previsões errôneas dos modelos implantados. Esse é o principal motivo para cientistas de dados passarem uma parte tão grande de seu tempo preparando dados para ML.

Como validar a limpeza de seus dados?

O processo de limpeza de dados envolve muitas etapas para identificar e corrigir entradas de problemas. A primeira etapa é analisar os dados para identificar erros. Isso pode implicar o uso de ferramentas de análise qualitativa que utilizam regras, padrões e restrições para identificar valores inválidos. A próxima etapa é remover ou corrigir erros. 

As etapas de limpeza de dados geralmente incluem a correção de:

  • Dados duplicados: descarte informações duplicadas
  • Dados irrelevantes: identifique campos essenciais para a análise específica e descarte da análise os dados irrelevantes
  • Exceções: como as exceções podem afetar drasticamente a performance do modelo, identifique as exceções e determine a medida apropriada
  • Dados ausentes: sinalize e descarte ou insira os dados ausentes
  • Erros estruturais: corrija erros tipográficos e outras inconsistências e faça os dados cumprirem um padrão ou convenção comum

Como a AWS pode ajudar na limpeza de dados

O Amazon SageMaker Data Wrangler é um atributo do Amazon SageMaker que possibilita a preparação de dados para ML de maneira rápida e fácil. Com o Amazon SageMaker Data Wrangler, é possível concluir cada etapa do fluxo de trabalho de preparação de dados, incluindo seleção, limpeza, exploração, detecção de desvios e visualização de dados em uma única interface visual.

Usando a ferramenta de seleção de dados do SageMaker Data Wrangler, você pode escolher os dados que deseja de várias fontes de dados e importá-los com um único clique. Depois que os dados forem importados, use o relatório de insights e qualidade dos dados para verificar automaticamente a qualidade e detectar anormalidades, como linhas duplicadas e vazamento no destino. O SageMaker Data Wrangler contém mais de 300 transformações de dados integradas, permitindo a rápida normalização, transformação e combinação de recursos sem que seja necessário escrever nenhum código.

Para começar a usar o SageMaker Data Wrangler, explore o tutorial.

Próximas etapas da Limpeza de dados

Confira outros recursos relacionados a produtos
Saiba mais sobre os serviços de machine learning 
Cadastre-se para obter uma conta gratuita

Obtenha acesso instantâneo ao nível gratuito da AWS.

Cadastre-se 
Comece a criar no console

Comece a criar no Console de Gerenciamento da AWS.

Faça login