Machine Learning - Index

Abordagens de Validação

A fase de validação é fundamental para avaliar o desempenho dos algoritmos de Machine Learning (classificação e regressão).

O objetivo principal é responder à pergunta:

“O modelo é válido para abordar adequadamente o problema em questão?“.

Existem diferentes abordagens de validação:

1. Validação Aparente (Apparent Validation):

  • O conjunto de treinamento é o mesmo que o conjunto de teste.
  • Esta abordagem pode originar uma avaliação de desempenho tendenciosa, já que os parâmetros do modelo foram otimizados para essa amostra específica.
  • Deve ser evitada, pois não proporciona uma avaliação imparcial do desempenho do modelo.

2. Validação Dividida por Amostra (Split-Sample Validation):

  • O conjunto de dados é dividido aleatoriamente em dois grupos separados: um para desenvolver o modelo e outro para validá-lo (por exemplo, 70%/30% ou 80%/20%).
  • Há uma desvantagem séria nessa opção: a avaliação de desempenho é realizada no conjunto de treinamento inteiro, o que pode levar a situações de overfitting.
  • Para contornar isso, um conjunto de validação deve ser criado, dividindo o conjunto de treinamento em um conjunto de treinamento menor e um conjunto de validação.

3. Validação Cruzada (Cross-Validation):

  • O conjunto de treinamento é dividido em subconjuntos distintos (folds).
  • O modelo é treinado e avaliado em um fold separado várias vezes, escolhendo um fold diferente para avaliação a cada vez e treinando nos outros (folds - 1).

Cada uma dessas abordagens tem suas vantagens e desvantagens, e a escolha da abordagem mais adequada depende do contexto específico do problema e do conjunto de dados. A validação é uma etapa crítica para garantir a eficácia e a confiabilidade dos modelos de Machine Learning.