Fornece a relação entre os elementos correspondentes de duas variáveis em um conjunto de dados de forma normalizada.
Muito útil para detectar situações de multicolinearidade. Ex: independência de variáveis de regressão.
- Correlação positiva
- Ocorre quando valores maiores de x correspondem a valores maiores de y e vice-versa
- r > 0
- Ocorre quando valores maiores de x correspondem a valores maiores de y e vice-versa
- Correlação negativa
- Ocorre quando valores maiores de x correspondem a valores pequenos de y e vice-versa
- r < 0
- Ocorre quando valores maiores de x correspondem a valores pequenos de y e vice-versa
- Correlação fraca ou sem correlação
- Quando não há relação aparente -
❗
As correlações não implicam causalidade, apenas permitem identificar relações na variação
Coeficientes de correlação
Correlação linear calculada por meio do Coeficiente de Correlação de Pearson, dado por:
Fornece a relação linear entre duas variáveis:
import numpy as np
import scipy as scipy.stats
x = np.array([10,11,12,13,14,15,16,17,18,19])
y = np.array([2,1,4,5,8,12,18,25,96,48])
r,p = scipy.stats.pearsonr(x,y)
print("Pearson Correlation Coefficiente: ", r)
A matriz completa dos coeficientes de correlação pode ser facilmente calculada corrcoef() :
import numpy as np
import scipy as scipy
x = np.array([10,11,12,13,14,15,16,17,18,19])
y = np.array([2,1,4,5,8,12,18,25,96,48])
print(np.corrcoef(x,y))Tipos de correlação
Pearson
Teste paramétrico, ambas as variáveis devem ser numéricas e normalmente distribuídas.
Spearman
Não há nenhuma suposição sobre a distribuição dos dados (teste não paramétrico). É uma análise de correlação apropriada quando as variáveis são medidas em uma escala que é pelo menos ordinal.
Kendall rank
Também é um teste não paramétrico que pode ser aplicado a variáveis ordinais. Geralmente aplicado quando o tamanho da amostra é limitado.
Point Bi-Serial
Uma medida de correlação da força de associação entre uma variável de nível contínuo (dados de proporção ou intervalo) e uma variável binária.
Em geral, quando uma das duas variáveis é categórica, não é possível realizar um estudo de correlação (não faz sentido detectar variações em uma variável categórica).
- Nessa situação, quando uma das duas variáveis é categórica, um teste de qui-quadrado () pode ser aplicado.
- Hipótese nula: não existe relação entre as variáveis categóricas na população, portanto, elas são independentes.
Se então a hipótese nula é rejeitada.
No entanto, há um caso especial: Quando a variável categórica é binária.
Nesse caso, para calcular a correlação entre essa variável e outra (numérica), o coeficiente da correlação de Person pode ser aplicado.
O coeficiente de correlação ponto-bisserial é um caso especial da correlação de Pearson com a variável binária codificada como numérica (0/1)
O Coeficiente de correlação ponto-bisserial é uma medida de correlação da força de associação entre uma variável de nível contínuo (dados de proporção ou intervalo) e uma variável binária.
Exemplos de relacionamentos (saída binária):
- A associação entre a administração do medicamento (placebo, medicamento) e a duração da sobrevivência após o tratamento
- Associação entre gênero (feminino, masculino) e a renda obtida
Importante
Análise bivariada que mede a força da associação entre duas variáveis e a direção da relação.
O valor do coeficiente de correlação varia entre +1 e -1.
O valor de +-1 indica o grau perfeito de associação entre duas variáveis. À medida que o valor do coeficiente de correlação se aproxima de 0, a relação entre as duas variáveis será mais fraca.
A direção da relação é indicada pelo sinal do coeficiente. O + indica uma relação positiva; e o - indica uma relação negativa.