As Medidas de Tendência Central não são suficientes para descrever dados.
Por sua vez, as medidas de variabilidade quantificam a dispersão dos pontos de dados.
Variância
A variância da amostra quantifica a dispersão dos dados, ou seja, mede a dispersão dos dados. Representa numericamente a distância entre os pontos e a média.
Variância da população
import numpy as np
a = np.array([1,4,5,4,8])
print("variância", np.var(a))Variância da amostra
Desvio Padrão
É uma medida de dispersão de dados.
Desvio Padrão na amostra
É a raiz quadrada positiva da variância.
import numpy as np
a = np.array([1,4,5,4,8])
print("variância da amostra", np.var(a, ddof=1)
print("Desvio Padrão da amostra", np.std(a, ddof=1))Desvio Padrão na população
import numpy as np
a = np.array([1,4,5,4,8])
print("variância", np.var(a, ddof=0))
print("Desvio Padrão da População", np.std(a, ddof=0))Intervalo de confiança
Intervalo que pode incluir um valor populacional com um determinado grau de confiança, ou seja, um intervalo de confiança representa o grau de incerteza que existe em qualquer estatística específica.
Assim, um intervalo de confiança mede quão bem sua amostra representa a população.
A probabilidade de que o intervalo de confiança inclua o valor estatístico verdadeiro (por exemplo, a média) em uma população é chamada de nível de confiança do IC.
O mais aplicado é o IC 95% (há uma probabilidade de 95% de que esse intervalo contenha o valor verdadeiro (por exemplo, a média da população).
Percentis
É o elemento do conjunto de dados em que p% dos elementos do conjunto de dados são menores ou iguais a esse valor. Além disso, (100 - p)% dos elementos são maiores ou iguais a esse valor.
Cada conjunto de dados tem três quartis, que são os percentis que dividem o conjunto de dados em quatro partes:
- O primeiro quartil é o percentil 25 da amostra.
- Ele divide 25% dos menores itens do restante do conjunto de dados.
- O segundo quartil é o 50º percentil da amostra ou a mediana.
- 25% dos itens estão entre o primeiro e o segundo quartis e outros 25% entre o segundo e o terceiro quartis.
- O terceiro quartil é o 75º percentil da amostra. Ele divide 25% dos maiores itens do restante do conjunto de dados.
import numpy as np
x = np.arange(101)
print('percentis: ', np.percentile(X, [25, 50, 75]))Normalmente a relação entre mediana e os quartis são representadas em um gráfico de caixa:

Skewness / Kurtosis
Mede a assimetria de uma amostra de dados que é dada por
em que é a media, é o desvio padrão da população, e é o número de pontos de dados.
- Skewness positivo significa que a cauda do lado direito da distribuição é mais longa. A média e a mediana serão maiores que a moda.
- A assimetria negativa ocorre quando a cauda do lado esquerdo da distribuição é maior do que a cauda do lado direito. A média e a mediana serão menores que a moda.

g:
- Bastante simétrico
- -0.5 ⇐ g ⇐ 0.5
- os dados são moderadamente distorcidos.
- -1 ⇐ g -0.5 || 0.5 ⇐ g ⇐ 1
- os dados são altamente distorcidos
- g < -1 || g > 1
Kurtosis
Como as distribuições está dispostas, ou seja, se a curva está mais achatada ou não.
Dado por
- Kurtosis alto () é um indicador de que os dados têm caudas pesadas ou muitos outliers.
- Kurtosis baixo () é um indicador de que os dados têm caudas leves ou ausência de outliers.
Amplitude (range)
É a diferença entre o máximo e o mínimo de um conjunto de dados.
import numpy as np
a = np.array([1,2,5,3,6,7,2,20,1,0,9])
print('Maximum: ', a.max())
print('Minimum: ', a.min())
print('Range: ', a.ptp())