Machine Learning - Index

Regularização em Aprendizagem Supervisionada

A regularização é uma técnica utilizada em aprendizagem supervisionada para prevenir o overfitting dos dados de treinamento e para melhorar a capacidade de generalização do modelo.

O overfitting ocorre quando um modelo aprende padrões específicos do conjunto de treinamento, mas falha em generalizar bem para novos dados.

A regularização busca reduzir a complexidade do modelo, penalizando parâmetros de modelo grandes, o que tende a levar a um modelo mais simples e mais generalizável.

Existem diferentes métodos de regularização, sendo dois dos mais comuns a Ridge Regression e a Lasso Regression:

  1. Ridge Regression (Regressão de Ridge):

    • A Ridge Regression adiciona um termo de penalidade à função de custo que é proporcional ao quadrado dos valores dos coeficientes do modelo (exceto o termo de interceptação).
    • A função de custo na Ridge Regression é, portanto, a soma do Erro Quadrático Médio (MSE) e do termo de penalidade.
    • O objetivo é minimizar essa função de custo ajustada, o que leva a coeficientes menores e a um modelo menos complexo.
    • A principal vantagem da Ridge Regression é que ela mantém todas as variáveis no modelo, mas reduz a magnitude de seus coeficientes, o que ajuda a mitigar o problema de multicolinearidade.
  2. Lasso Regression (Regressão Lasso):

    • A Lasso Regression, assim como a Ridge Regression, adiciona um termo de penalidade à função de custo. No entanto, a penalidade é proporcional ao valor absoluto dos coeficientes do modelo.
    • Essa abordagem tem um efeito interessante de reduzir alguns coeficientes exatamente a zero, o que efetivamente remove essas variáveis do modelo.
    • A Lasso Regression é particularmente útil quando se suspeita que muitas variáveis de entrada não são importantes, pois ela realiza uma seleção automática de características (feature selection).

Ambas as técnicas são formas de regularização L2 (Ridge) e L1 (Lasso), respectivamente.

A escolha entre Ridge e Lasso depende das características específicas do conjunto de dados e do problema em questão.

Em situações onde todas as variáveis são importantes, a Ridge pode ser mais apropriada. Já em casos onde se espera que apenas um subconjunto das variáveis seja relevante, a Lasso pode ser mais útil.