Machine Learning - Index

Árvores de Decisão

Árvores de Decisão são um método popular de aprendizagem supervisionada usadas tanto para classificação quanto para regressão.

São particularmente apreciadas pela sua facilidade de interpretação, já que podem ser visualizadas como uma estrutura de árvore.

Como Funcionam as Árvores de Decisão:

  • Estrutura de Árvore: Uma árvore de decisão é composta por nós de decisão e folhas. Cada nó de decisão representa um teste em um atributo, e cada folha da árvore representa uma classe ou um valor de regressão.
  • Construção da Árvore: Começando pelo nó raiz, a árvore é construída dividindo o conjunto de dados com base em atributos que resultam na melhor separação (ou redução de impureza) das classes. Esse processo é repetido recursivamente para cada divisão até que um critério de parada seja atingido.

Exemplo Prático:

Imagine que você deseja classificar animais em diferentes categorias com base em características como número de pernas, habitat e dieta. A árvore de decisão começaria com uma pergunta no nó raiz, como “O animal tem menos de 4 pernas?“. Dependendo da resposta, seguiria para diferentes ramos, eventualmente levando a uma folha que indica a categoria do animal.

Critérios de Divisão:

  • Impureza de Gini e Entropia: São medidas comuns usadas para determinar a qualidade de uma divisão.
    • A impureza de Gini mede a frequência com que um elemento aleatório seria identificado incorretamente se fosse rotulado aleatoriamente de acordo com a distribuição de rótulos no subconjunto.
    • A entropia é uma medida da desordem ou incerteza e é usada na teoria da informação.

Poda da Árvore:

  • Prevenção do Overfitting: Árvores de decisão podem se tornar complexas e se ajustar demais aos dados de treinamento (overfitting). Para evitar isso, técnicas de poda são usadas para cortar partes da árvore que fornecem pouco poder preditivo.

Árvores de Decisão são poderosas e flexíveis, mas é importante gerenciá-las cuidadosamente para evitar o sobreajuste. Elas são adequadas para problemas onde é desejável entender claramente como as decisões são tomadas, já que a estrutura da árvore oferece uma representação visual clara do processo de decisão.