Sobre amostragem e sub amostragem

Over sampling e under sampling são duas técnicas que são utilizadas para lidar com conjuntos de dados desequilibrados, onde uma classe é significativamente mais representada que a outra.

A sobreamostragem envolve a duplicação de instâncias da classe minoritária a fim de equilibrar o conjunto de dados, enquanto a subamostragem envolve a remoção de instâncias da classe majoritária.

Ambas estas técnicas têm os seus próprios prós e contras, sendo muitas vezes recomendado tentar ambas para ver qual delas funciona melhor para o problema específico em questão. Qual das seguintes técnicas é uma vantagem da sub-amostragem? Uma vantagem da sub-amostragem é que ela pode ajudar a equilibrar a distribuição de classe de um conjunto de dados. Isto pode ser benéfico se houver um grande desequilíbrio de classe, pois pode ajudar a evitar que o modelo se ajuste em excesso à classe maioritária.

Por que é importante sobreamostragem?

O overampling é o processo de aumentar o número de amostras em um conjunto de dados. É usado quando o conjunto de dados é desequilibrado, o que significa que há uma diferença significativa no número de amostras para diferentes classes.

A sobreamostragem pode ser utilizada para melhorar o desempenho dos modelos de aprendizagem da máquina. Quando o conjunto de dados está desequilibrado, os modelos podem ser enviesados para a classe maioritária. A sobreamostragem pode ajudar a mitigar este problema, aumentando o número de amostras para a classe minoritária.

Existem alguns métodos diferentes de sobreamostragem, incluindo sobreamostragem aleatória, geração de dados sintéticos e SMOTE (técnica de sobreamostragem de minorias sintéticas).

A sobreamostragem aleatória envolve a duplicação de amostras da classe minoritária até que a classe seja equilibrada com a classe majoritária. Isso pode introduzir viés no conjunto de dados se as amostras duplicadas não forem representativas da população real.

A geração de dados sintéticos cria novos pontos de dados que são similares aos pontos de dados existentes da classe minoritária. Isto pode ser feito usando algoritmos como modelos de mistura Gaussiana ou estimativa de densidade de kernel.
SMOTE é um tipo de geração de dados sintéticos que cria novos pontos de dados que são similares aos pontos de dados existentes da classe minoritária, mas também são próximos a um ou mais dos vizinhos mais próximos dos pontos de dados da classe minoritária. Isso pode ajudar a reduzir o viés que pode ser introduzido pela sobreamostragem aleatória.

A sobreamostragem pode ser uma ferramenta útil para lidar com dados desequilibrados

A sobreamostragem causa sobreajustamento?

A sobreamostragem pode causar sobreajustamento se o modelo não for capaz de generalizar a partir dos dados sobreamostragem para os dados reais. Isto pode acontecer se os dados sobreamostragem forem muito diferentes dos dados reais, ou se o modelo não for suficientemente complexo para aprender os padrões nos dados sobreamostragem.

Por que precisamos de Upsampling na aprendizagem da máquina?

Existem algumas razões pelas quais o Upsampling é usado na aprendizagem de máquinas:

1. Para corrigir conjuntos de dados desequilibrados: Em muitos conjuntos de dados do mundo real, algumas aulas são muito mais representadas do que outras. Por exemplo, em um conjunto de dados de clientes, pode haver muito mais clientes que não churn do que clientes que o fizeram. Esta relação de desequilíbrio pode causar problemas para os algoritmos de aprendizagem de máquinas, que podem aprender a simplesmente prever a classe maioritária o tempo todo. Para corrigir isso, o upsampling pode ser usado para criar um conjunto de dados mais equilibrado.

2. 2. Para melhorar as previsões para a classe minoritária: Mesmo que o conjunto de dados esteja equilibrado, a classe minoritária ainda pode estar subrepresentada. Isto pode dificultar a aprendizagem de padrões associados a esta classe por parte dos algoritmos de aprendizagem de máquinas. Ao fazer o upsampling da classe minoritária, podemos dar ao algoritmo mais dados para trabalhar, o que pode levar a melhores previsões.

3. para aumentar o tamanho do conjunto de dados: Em alguns casos, podemos simplesmente querer aumentar o tamanho do conjunto de dados. Isto pode ser útil se o conjunto de dados original for pequeno, ou se quisermos usar um algoritmo de aprendizagem de máquina mais sofisticado que requer muitos dados.

4. para reduzir o ruído nos dados: Nalguns casos, a recolha de amostras pode ajudar a reduzir o ruído nos dados. Isto pode ser especialmente útil se o conjunto de dados original for muito ruidoso.

5. 5. Para melhorar a interpretabilidade dos resultados: Em alguns casos, o upsam