A covariância quantifica a força e a direção da relação entre um par de variáveis x e y, segundo a fórmula:
Em que e são as respectivas médias e a quantidade de elementos.
Uma relação mais forte corresponde a um valor alto de covariância, que pode ser:
- Positiva (ambas as variáveis aumentam/diminuem)
- Negativa (uma variável aumenta/diminui enquanto a outra diminui/aumenta)
Uma relação fraca implica uma covariância próxima de 0
Exemplo:
import numpy as np
x = [
[0.1,0.3,0.4,0.8,0.9],
[3.2,2.4,2.4,0.1,5.5],
[10.,8.2,4.3,2.6,0.9]
]
print(np.cov(x))A matriz de covariância é dada por:
[[ 0.115 0.0575 -1.2325]
[ 0.0575 3.757 -0.8775]
[-1.2325 -0.8775 14.525 ]]
Algumas conclusões da matriz de covariância:
- Há uma forte anti-correlação entre e (), à medida que um aumento o outro diminui.
- Não há correlação forte entre e (), ou seja, não apresentam tendência forte em conjunto.
Problema: qual é a força dessa relação?
- Os valores de covariância são difíceis de interpretar, portanto, esses valores devem ser normalizados (coeficientes de correlação)