Regresión lineal simple

Introducción

El análisis de regresión se utiliza habitualmente para modelar la relación entre una única variable dependiente Y y uno o más predictores. Cuando tenemos un solo predictor, lo llamamos regresión lineal «simple»:

E = β0 + β1X

Es decir, el valor esperado de Y es una función rectilínea de X. Las betas se seleccionan eligiendo la línea que minimiza la distancia al cuadrado entre cada valor de Y y la línea de mejor ajuste. Las betas se eligen de forma que minimicen esta expresión:

∑i (yi – (β0 + β1X))2

Un instructivo gráfico que encontré en Internet

Fuente: http://www.unc.edu/~nielsen/soci709/m1/m1005.gif

Cuando tenemos más de un predictor, lo llamamos regresión lineal múltiple:

Y = β0 + β1X1+ β2X2+ β2X3+… + βkXk

Los valores ajustados (es decir, los valores predichos) se definen como aquellos valores de Y que se generan si introducimos nuestros valores de X en nuestro modelo ajustado.

Los residuos son los valores ajustados menos los valores reales observados de Y.

Aquí hay un ejemplo de regresión lineal con dos predictores y un resultado:

En lugar de la «línea de mejor ajuste», hay un «plano de mejor ajuste».

Fuente: James et al. Introduction to Statistical Learning (Springer 2013)

Hay cuatro supuestos asociados a un modelo de regresión lineal:

  1. Linealidad: La relación entre X y la media de Y es lineal.
  2. Homocedasticidad: La varianza del residuo es la misma para cualquier valor de X.
  3. Independencia: Las observaciones son independientes entre sí.
  4. Normalidad: Para cualquier valor fijo de X, Y se distribuye normalmente.
    1. Revisaremos cómo evaluar estos supuestos más adelante en el módulo.

      Comencemos con una regresión simple. En R, los modelos suelen ajustarse llamando a una función de ajuste de modelos, en nuestro caso lm(), con un objeto «fórmula» que describe el modelo y un objeto «data.frame» que contiene las variables utilizadas en la fórmula. Una llamada típica puede ser como

      > mifunción <- lm(fórmula, datos, …)

      y devolverá un objeto modelo ajustado, aquí almacenado como mifunción. Este modelo ajustado se puede imprimir, resumir o visualizar posteriormente; además, se pueden extraer los valores ajustados y los residuos, y podemos hacer predicciones sobre nuevos datos (valores de X) calculados mediante funciones como summary(), residuals(),predict(), etc. A continuación, veremos cómo ajustar una regresión lineal simple.

      volver al principio | página anterior | página siguiente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *