Perturbação de dados

Definição - O que significa Perturbação de Dados?

A perturbação de dados é uma forma de mineração de dados com preservação de privacidade para registros eletrônicos de saúde (EHR). Existem dois tipos principais de perturbação de dados apropriados para proteção de dados EHR. O primeiro tipo é conhecido como abordagem de distribuição de probabilidade e o segundo tipo é chamado abordagem de distorção de valor. A pertubação de dados é considerada uma técnica relativamente fácil e eficaz para proteger dados eletrônicos confidenciais do uso não autorizado.

Definirtec explica a perturbação de dados

A pertubação de dados foi aclamada como uma aplicação mais eficaz de proteção de dados na área de saúde do que a desindentificação / reidentificação, devido à maior probabilidade de ocorrerem ataques que vinculam conjuntos de dados públicos a identificadores ou sujeitos originais. Por isso mesmo, a pertubação de dados é saudada como uma aplicação mais sólida quando se trata de segurança EHR.

A abordagem de distribuição de probabilidade pega os dados e os substitui da mesma amostra de distribuição ou da própria distribuição. A abordagem de distorção de valor perturba os dados por ruído multiplacativo ou aditivo, ou outros processos aleatórios. É considerado mais eficaz do que o primeiro tipo de perturbação. Esta abordagem constrói classificadores de árvore de decisão onde cada elemento recebe ruído aleatório da distribuição Gaussiana, por exemplo. Por mineração de dados, a distribuição de dados original é reconstruída a partir de sua versão perturbada. No entanto, os críticos apontam para o fato de que o ruído aditivo aleatório pode ser filtrado, o que pode resultar em comprometimento da privacidade do EHR.