Machine Learning - Index

Medidas: Área Sob a Curva (AUC) e Curva ROC

A Área Sob a Curva - Receiver Operating Characteristics (AUC - ROC) é uma medida de desempenho importante para problemas de classificação, especialmente em configurações de vários limiares. Ela relaciona a taxa de verdadeiros positivos (TPR) e a taxa de falsos positivos (FPR).

  • AUC - ROC:

    • A AUC - ROC é uma medida do modelo para classificar corretamente as classes positivas e negativas.
    • Quanto maior a AUC, melhor o modelo. Um classificador perfeito terá uma AUC de 1, indicando uma capacidade perfeita de separar as classes positiva e negativa sem sobreposição.
    • Uma AUC de 0.5 indica que o modelo não tem capacidade de separação de classes, enquanto uma AUC de 0 significa que o classificador está invertendo as saídas da classificação (0’s devem ser 1’s; 1’s devem ser 0’s).
  • Taxa de Verdadeiros Positivos (TPR) e Taxa de Falsos Positivos (FPR):

    • TPR (Sensibilidade ou Recall) é calculada como TP / (TP + FN), indicando a proporção de casos positivos reais corretamente identificados.
    • FPR é calculada como 1 - Especificidade (TN / (TN + FP)), representando a proporção de casos negativos reais incorretamente identificados como positivos.

A Curva ROC é um gráfico da TPR em relação à FPR para diferentes pontos de corte. A AUC fornece uma medida agregada de desempenho em todos os limiares possíveis. Em situações mais comuns, o processo de classificação apresentará alguns FN e FP, e raramente se observa uma separação perfeita entre os grupos.

Essas medidas são valiosas para avaliar a capacidade do modelo de classificar corretamente as instâncias e entender o trade-off entre capturar casos positivos e evitar falsos positivos. A AUC - ROC é uma ferramenta útil para comparar diferentes modelos, especialmente em contextos onde o equilíbrio entre sensibilidade e especificidade é crítico.