Estatística Descritiva

Fornece a relação entre os elementos correspondentes de duas variáveis em um conjunto de dados de forma normalizada.

Muito útil para detectar situações de multicolinearidade. Ex: independência de variáveis de regressão.

  • Correlação positiva
    • Ocorre quando valores maiores de x correspondem a valores maiores de y e vice-versa
      • r > 0
  • Correlação negativa
    • Ocorre quando valores maiores de x correspondem a valores pequenos de y e vice-versa
      • r < 0
  • Correlação fraca ou sem correlação
    • Quando não há relação aparente -

As correlações não implicam causalidade, apenas permitem identificar relações na variação

Coeficientes de correlação

Correlação linear calculada por meio do Coeficiente de Correlação de Pearson, dado por:

Fornece a relação linear entre duas variáveis:

import numpy as np
import scipy as scipy.stats
 
x = np.array([10,11,12,13,14,15,16,17,18,19])
y = np.array([2,1,4,5,8,12,18,25,96,48])
 
r,p = scipy.stats.pearsonr(x,y)
print("Pearson Correlation Coefficiente: ", r)
 

A matriz completa dos coeficientes de correlação pode ser facilmente calculada corrcoef() :

import numpy as np
import scipy as scipy
 
x = np.array([10,11,12,13,14,15,16,17,18,19])
y = np.array([2,1,4,5,8,12,18,25,96,48])
 
print(np.corrcoef(x,y))

Tipos de correlação

Pearson

Teste paramétrico, ambas as variáveis devem ser numéricas e normalmente distribuídas.

Spearman

Não há nenhuma suposição sobre a distribuição dos dados (teste não paramétrico). É uma análise de correlação apropriada quando as variáveis são medidas em uma escala que é pelo menos ordinal.

Kendall rank

Também é um teste não paramétrico que pode ser aplicado a variáveis ordinais. Geralmente aplicado quando o tamanho da amostra é limitado.

Point Bi-Serial

Uma medida de correlação da força de associação entre uma variável de nível contínuo (dados de proporção ou intervalo) e uma variável binária.

Em geral, quando uma das duas variáveis é categórica, não é possível realizar um estudo de correlação (não faz sentido detectar variações em uma variável categórica).

  • Nessa situação, quando uma das duas variáveis é categórica, um teste de qui-quadrado () pode ser aplicado.
    • Hipótese nula: não existe relação entre as variáveis categóricas na população, portanto, elas são independentes.

Se então a hipótese nula é rejeitada.

No entanto, há um caso especial: Quando a variável categórica é binária.

Nesse caso, para calcular a correlação entre essa variável e outra (numérica), o coeficiente da correlação de Person pode ser aplicado.

O coeficiente de correlação ponto-bisserial é um caso especial da correlação de Pearson com a variável binária codificada como numérica (0/1)

O Coeficiente de correlação ponto-bisserial é uma medida de correlação da força de associação entre uma variável de nível contínuo (dados de proporção ou intervalo) e uma variável binária.

Exemplos de relacionamentos (saída binária):

  • A associação entre a administração do medicamento (placebo, medicamento) e a duração da sobrevivência após o tratamento
  • Associação entre gênero (feminino, masculino) e a renda obtida

Importante

Análise bivariada que mede a força da associação entre duas variáveis e a direção da relação.

O valor do coeficiente de correlação varia entre +1 e -1.

O valor de +-1 indica o grau perfeito de associação entre duas variáveis. À medida que o valor do coeficiente de correlação se aproxima de 0, a relação entre as duas variáveis será mais fraca.

A direção da relação é indicada pelo sinal do coeficiente. O + indica uma relação positiva; e o - indica uma relação negativa.