Tutorial: Regressão linear

“Há dois usos frequentes quando fala-se de regressão múltipla: análise de previsão ou análise de causalidade. Em estudos de previsão (também cunhados como predição), o objetivo é construir uma fórmula que possa prever a variável dependente a partir dos valores observados das variáveis independentes. Já em uma análise de causalidade, o objetivo é determinar como e quanto uma variável independente realmente afeta uma variável dependente.”

Esse texto é de Paul Allison e você pode encontrar no livro “Regressão múltipla“, que é ótimo. Sempre que possível, leia as versões em inglês.

De forma ampla, enquanto a parte descritiva da estatística se dispõe a organizar e apresentar os resultados de uma pesquisa; a parte inferencial tenta generalizar os resultados de uma parcela da população (amostra) para esta população. As análises de correlação e também as de regressão costumam estar mais relacionadas com inferências do que com descrição; apesar de também servirem para esta finalidade.
Assim, enquanto a correlação mede o grau de associação entre duas ou mais variáveis, a regressão determina o quanto a variabilidade de uma variável dependente é explicada/associada por variáveis independentes.
Ao falar de Regressão, basicamente a fórmula que inaugura todas as análises posteriores é dada por uma equação linear de primeiro grau:

Y = a + bX + u
Onde,
Y: variável dependente (ou explicada)
X: preditor ou variável independente
a: intercepto, que é a medida da reta em y quando x=0
b: grau ou coeficiente de angulação/inclinação.
u: erro ou resíduo

A Regressão, evidentemente, não precisa ser linear e tampouco precisa ter como output uma variável numérica (por exemplo: peso ou salário). É possível trabalhar com resultados dependentes binários ou categóricos e também com preditores igualmente binários ou categóricos.
Quando temos uma variável dependente não-numérica, estamos diante de um modelo clássico de regressão logística, que quase sempre segue uma binomial B(n,p), onde:

n ∈ N0 — número de tentativas
p ∈ [0,1] — probabilidade de sucesso em cada tentativa

Ou vai adiante em modelos probit e logit.
Quando temos preditores binários ou categóricos, de fato, estamos diante de uma Análise da Variância (ANOVA), que é um caso especial de regressão onde há preditores categóricos.
E está introdução é relacionada ao tutorial de “Regressão Linear Simples e Múltipla”, que foi fruto de um vídeo específico que pode ser visto em: https://youtu.be/4Z52eEKVorY

Os dados estão disponível aqui e o pdf com as instruções teóricas aqui.

Um forte abraço
Prof. Luis Anunciação (PUC-Rio)
Psicometrista