Machine Learning - Index

Estatística Descritiva:

  • Aborda a descrição e sumarização numérica dos dados, bem como a representação gráfica (gráficos, histogramas).
  • Análise Univariada: Analisa o comportamento de uma única variável.
  • Análise Multivariada: Estuda as relações entre múltiplas variáveis.

Tipos de medidas

Medidas de Tendência Central

Relacionado o centro dos dados (média, mediana e moda).

Medidas de Variabilidade

Relacionada dispersão dos dados (variância e desvio padrão).

Covariância / Correlação

Sobre a relação entre um par de variáveis em um conjunto de dados (covariância, coeficiente de correlação).

População

População é um conjunto de todos os elementos ou itens envolvidos no problema a ser resolvido. Porém, o problema é que é impossível coletar e analisar dados em todos os elementos da população. Então, a solução é escolher um subconjunto representativo da população (amostra)

Amostra

idealmente a amostra deve preservar as características estatísticas essenciais da população (representar a população inteira da forma mais precisa possível).

Outliers

Outlier é um ponto de dados que difere significativamente da maioria dos dados obtidos de uma amostra ou população.

Isso pode ocorrer porque:

  • é uma variação natural dos dados que, mesmo inesperada, é real.
  • há uma mudança no comportamento do sistema observado.
  • há erros na coleta de dados, como por exemplo:
    • mau funcionamento do sensor/equipamentos
    • contaminação de dados
    • erro humano
    • erro de cálculo