Pré-processamento de dados

Definição - o que significa pré-processamento de dados?

O pré-processamento de dados é uma técnica de mineração de dados que envolve a transformação de dados brutos em um formato compreensível. Os dados do mundo real geralmente são incompletos, inconsistentes, faltam certos comportamentos ou tendências e provavelmente contêm muitos erros.

O pré-processamento de dados é um método comprovado de resolver esses problemas. O pré-processamento de dados prepara os dados brutos para processamento posterior.

O pré-processamento de dados é usado em aplicativos baseados em banco de dados, como gerenciamento de relacionamento com o cliente e aplicativos baseados em regras (como redes neurais).

Em processos de aprendizado de máquina (ML), o pré-processamento de dados é fundamental para codificar o conjunto de dados de uma forma que possa ser interpretada e analisada pelo algoritmo.

Definirtec explica o pré-processamento de dados

Os dados passam por uma série de etapas durante o pré-processamento:

Limpeza de dados: Os dados são limpos por meio de processos como preenchimento de valores ausentes ou exclusão de linhas com dados ausentes, suavização de dados ruidosos ou resolução de inconsistências nos dados.

Suavizar dados ruidosos é particularmente importante para conjuntos de dados de ML, uma vez que as máquinas não podem usar dados que não podem interpretar. Os dados podem ser limpos dividindo-os em segmentos de tamanhos iguais que são suavizados (binning), ajustando-os a uma função de regressão linear ou múltipla (regressão) ou agrupando-os em clusters de dados semelhantes (clustering).

Podem ocorrer inconsistências de dados devido a erros humanos (a informação foi armazenada em um campo errado). Os valores duplicados devem ser removidos por meio de desduplicação para evitar dar a esse objeto de dados uma vantagem (viés).

Integração de Dados: Dados com diferentes representações são reunidos e os conflitos dentro dos dados são resolvidos.

Transformação de dados: Os dados são normalizados e generalizados. A normalização é um processo que garante que nenhum dado seja redundante, que seja todo armazenado em um único lugar e que todas as dependências sejam lógicas.

Redução de dados: Quando o volume de dados é enorme, os bancos de dados podem se tornar mais lentos, caros de acessar e difíceis de armazenar adequadamente. A etapa de redução de dados visa apresentar uma representação reduzida dos dados em um data warehouse.

Existem vários métodos para reduzir os dados. Por exemplo, uma vez que um subconjunto de atributos relevantes é escolhido por sua significância, qualquer coisa abaixo de um determinado nível é descartado. Os mecanismos de codificação também podem ser usados para reduzir o tamanho dos dados. Se todos os dados originais puderem ser recuperados após a compactação, a operação será rotulada como sem perdas.

Se alguns dados forem perdidos, isso é chamado de redução com perdas. A agregação também pode ser usada, por exemplo, para condensar inúmeras transações em um único valor semanal ou mensal, reduzindo significativamente o número de objetos de dados.

Discretização de dados: Os dados também podem ser discretizados para substituir valores brutos por níveis de intervalo. Esta etapa envolve a redução de um número de valores de um atributo contínuo, dividindo o intervalo de intervalos de atributo.

Amostragem de dados: Às vezes, devido a restrições de tempo, armazenamento ou memória, um conjunto de dados é muito grande ou muito complexo para ser trabalhado. Técnicas de amostragem podem ser usadas para selecionar e trabalhar apenas com um subconjunto do conjunto de dados, desde que tenha aproximadamente as mesmas propriedades do original.