Support Vector Machine (SVM)
A Support Vector Machine (SVM) é um método de aprendizagem supervisionada que pode ser aplicado tanto para classificação quanto para regressão.
O SVM é particularmente bem adaptado para classificação de conjuntos de dados complexos, pequenos ou médios. O conceito central por trás do SVM é encontrar um hiperplano em um espaço multidimensional que melhor separe diferentes classes.
Classificação Linear com SVM
- Hiperplano de Decisão: No SVM para classificação linear, o hiperplano é um plano de decisão que separa instâncias de diferentes classes. O objetivo principal é identificar um hiperplano com a maior margem possível entre os vetores de suporte (as instâncias mais próximas de diferentes classes) em um conjunto de dados.
- Classificação de Maior Margem (Largest Margin Classification): O SVM busca não apenas separar as classes, mas também permanecer o mais distante possível das instâncias de treinamento mais próximas. Isso é conhecido como classificação de maior margem.
- Vetores de Suporte: São as instâncias mais próximas do hiperplano e desempenham um papel fundamental na definição do hiperplano de separação.
- Margem: É a lacuna entre os dois vetores de suporte (instâncias de classe mais próximas e diferentes). Uma margem maior indica um melhor classificador SVM.
Hard Margin vs Soft Margin Classification
- Hard Margin Classification: Exige que todas as instâncias estejam fora da área de margem e do lado correto do hiperplano. No entanto, isso só funciona se os dados forem linearmente separáveis e é muito sensível a outliers.
- Soft Margin Classification: Busca um equilíbrio entre manter a margem o mais larga possível e limitar as violações da margem. Isso torna o classificador mais flexível e menos sensível a outliers.
Um exemplo prático do uso do SVM seria a classificação de e-mails como spam ou não spam. O SVM procuraria encontrar um hiperplano que separasse melhor os e-mails em duas categorias, maximizando a distância entre os e-mails mais difíceis de classificar (vetores de suporte).
Em resumo, o SVM é uma técnica poderosa para problemas de classificação e regressão, especialmente útil para conjuntos de dados onde a relação entre as classes não é facilmente separável. A escolha entre a classificação de margem rígida e suave depende da natureza dos dados e da presença de outliers.