Estatística Descritiva:
- Aborda a descrição e sumarização numérica dos dados, bem como a representação gráfica (gráficos, histogramas).
- Análise Univariada: Analisa o comportamento de uma única variável.
- Análise Multivariada: Estuda as relações entre múltiplas variáveis.
Tipos de medidas
Medidas de Tendência Central
Relacionado o centro dos dados (média, mediana e moda).
Medidas de Variabilidade
Relacionada dispersão dos dados (variância e desvio padrão).
Covariância / Correlação
Sobre a relação entre um par de variáveis em um conjunto de dados (covariância, coeficiente de correlação).
População
População é um conjunto de todos os elementos ou itens envolvidos no problema a ser resolvido. Porém, o problema é que é impossível coletar e analisar dados em todos os elementos da população. Então, a solução é escolher um subconjunto representativo da população (amostra)
Amostra
idealmente a amostra deve preservar as características estatísticas essenciais da população (representar a população inteira da forma mais precisa possível).
Outliers
Outlier é um ponto de dados que difere significativamente da maioria dos dados obtidos de uma amostra ou população.
Isso pode ocorrer porque:
- é uma variação natural dos dados que, mesmo inesperada, é real.
- há uma mudança no comportamento do sistema observado.
- há erros na coleta de dados, como por exemplo:
- mau funcionamento do sensor/equipamentos
- contaminação de dados
- erro humano
- erro de cálculo