Estatística Descritiva

As Medidas de Tendência Central não são suficientes para descrever dados.

Por sua vez, as medidas de variabilidade quantificam a dispersão dos pontos de dados.

Variância

A variância da amostra quantifica a dispersão dos dados, ou seja, mede a dispersão dos dados. Representa numericamente a distância entre os pontos e a média.

Variância da população

import numpy as np
a = np.array([1,4,5,4,8])
print("variância", np.var(a))

Variância da amostra

Desvio Padrão

É uma medida de dispersão de dados.

Desvio Padrão na amostra

É a raiz quadrada positiva da variância.

import numpy as np
a = np.array([1,4,5,4,8])
print("variância da amostra", np.var(a, ddof=1)
print("Desvio Padrão da amostra", np.std(a, ddof=1))

Desvio Padrão na população

import numpy as np
a = np.array([1,4,5,4,8])
print("variância", np.var(a, ddof=0))
print("Desvio Padrão da População", np.std(a, ddof=0))

Intervalo de confiança

Intervalo que pode incluir um valor populacional com um determinado grau de confiança, ou seja, um intervalo de confiança representa o grau de incerteza que existe em qualquer estatística específica.

Assim, um intervalo de confiança mede quão bem sua amostra representa a população.

A probabilidade de que o intervalo de confiança inclua o valor estatístico verdadeiro (por exemplo, a média) em uma população é chamada de nível de confiança do IC.

O mais aplicado é o IC 95% (há uma probabilidade de 95% de que esse intervalo contenha o valor verdadeiro (por exemplo, a média da população).

Percentis

É o elemento do conjunto de dados em que p% dos elementos do conjunto de dados são menores ou iguais a esse valor. Além disso, (100 - p)% dos elementos são maiores ou iguais a esse valor.

Cada conjunto de dados tem três quartis, que são os percentis que dividem o conjunto de dados em quatro partes:

  • O primeiro quartil é o percentil 25 da amostra.
    • Ele divide 25% dos menores itens do restante do conjunto de dados.
  • O segundo quartil é o 50º percentil da amostra ou a mediana.
    • 25% dos itens estão entre o primeiro e o segundo quartis e outros 25% entre o segundo e o terceiro quartis.
  • O terceiro quartil é o 75º percentil da amostra. Ele divide 25% dos maiores itens do restante do conjunto de dados.
import numpy as np
x = np.arange(101)
print('percentis: ', np.percentile(X, [25, 50, 75]))

Normalmente a relação entre mediana e os quartis são representadas em um gráfico de caixa:

Skewness / Kurtosis

Mede a assimetria de uma amostra de dados que é dada por

em que é a media, é o desvio padrão da população, e é o número de pontos de dados.

  • Skewness positivo significa que a cauda do lado direito da distribuição é mais longa. A média e a mediana serão maiores que a moda.
  • A assimetria negativa ocorre quando a cauda do lado esquerdo da distribuição é maior do que a cauda do lado direito. A média e a mediana serão menores que a moda.

g:

  • Bastante simétrico
    • -0.5 g 0.5
  • os dados são moderadamente distorcidos.
    • -1 g -0.5 || 0.5 g 1
  • os dados são altamente distorcidos
    • g < -1 || g > 1

Kurtosis

Como as distribuições está dispostas, ou seja, se a curva está mais achatada ou não.

Dado por

  • Kurtosis alto () é um indicador de que os dados têm caudas pesadas ou muitos outliers.
  • Kurtosis baixo () é um indicador de que os dados têm caudas leves ou ausência de outliers.

Amplitude (range)

É a diferença entre o máximo e o mínimo de um conjunto de dados.

import numpy as np
a = np.array([1,2,5,3,6,7,2,20,1,0,9])
 
print('Maximum: ', a.max())
print('Minimum: ', a.min())
print('Range: ', a.ptp())