Análisis de Residuos

R: homocedasticidad de los Residuos

Estudiar el comportamiento de los residuos u_i = Y_i - \hat{Y}_i es de vital importancia para el análisis de regresión, pues varios de los supuestos del Modelo Clásico de Regresión Lineal (MCRL) hacen énfasis en los residuos, es por esto que se recurre a herramientas que nos permitan verificar si se cumplen estos supuestos y así, aumentar la confiabilidad sobre las conclusiones que se hagan a partir del modelo planteado.

También pudiera interesarte

Anuncios

Datos a considerar para los ejemplos

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Homocedasticidad

Para estudiar la homocedasticidad de los residuos o la homogeneidad de la varianza, se estudia qué tan constante es la varianza de los residuos, es decir, se estudia la heterocedasticidad de los residuos y se verifica que esta sea lo más pequeña posible. Para esto, es necesario estudentizar los residuos de la siguiente forma:

\dfrac{u-\overline{u}}{\hat{\sigma}^2}

Posteriormente, comparamos los residuos estudentizados con los valores estimados de la variable dependiente y esto se pude hacer de dos formas: Gráficamente o Estadísticamente.

Gráficamente

Haciendo diagrama de dispersión recurriendo a la instrucción plot(), entonces si previamente hemos definido el modelo lineal usando la instrucción lm() usamos la siguiente sintaxis:

std.res = (lm(Y~X)$residuals-mean(lm(Y~X)$residuals))/sigma2.e
plot(lm(Y~X)$fitted.values,std.res)

En un gráfico donde no haya heterocedasticidad (es decir, que indique homocedasticidad), es necesario que los puntos estén distribuidos de forma aleatoria y repartidos con equidad a través a lo largo del Eje Vertical, es decir, si se traza una recta horizontal en cero, estos no deberían estar acumulados ni por encima ni por debajo de esta recta.

Este gráfico de dispersión se puede generar con mayor detalle usando la instrucción plot() sobre el modelo lineal, que genera cuatro gráficos pero nos interesarán sólo dos de ellos, el 1 y el 3:

plot(lm(Y~X),1)
plot(lm(Y~X),3)

Ejemplo

Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos generar un diagrama de dispersión de los residuos y de la raíz cuadrada de los residuos estudentizados uno junto al otro combinando la instrucciones par() y plot(), para esto, usamos la siguiente sintaxis:

#par(mfrow = c(1,2))
plot(lm(salario~escolaridad),1)
plot(lm(salario~escolaridad),3)

Al ejecutar esta instrucción obtenemos los gráficos que estamos buscando:

La línea roja es un ajuste local de los residuos (ponderada localmente) que suaviza los puntos del diagrama de dispersión para facilitad la detección patrones en los residuos. La situación ideal es que esta línea roja sea una se asemeje a una recta horizonal centrada en cero.

En este ejemplo, la línea roja no es una recta horizonal centrada en cero pero estos parecieran estar al menos, distribuidos de forma aleatoria. Sin embargo, debido a la poca cantidad de datos, no podemos hacer una conclusión fehaciente.

Estadísticamente

Prueba de Breush-Pagan

La Breush-Pagan Test (Prueba de Breusch–Pagan), parte del hecho que la media de los residuos es igual a cero y si la varianza no depende de la variable independiente, se puede obtener una estimación de esta varianza a partir del promedio de los cuadrados de los residuos.

De esta forma, a partir del contrarrecíproco, se concluye que si esta estimación de la varianza no se puede obtener, entones la varianza está linealmente relacionada con la variable independiente. Para esto se define una regresión lineal auxiliar para el cuadrado de los residuos

\hat{u}^2 = \gamma_0 + \gamma_1 \cdot x + v

Se plantea entonces como hipótesis nula que existe homocedasticidad y como hipótesis alternativa que existe heterocedasticidad. Es una prueba de chi-cuadrado: el estadístico de prueba se distribuye nchi^2 con k grados de libertad. Si el estadístico de prueba tiene un p-value por debajo de un umbral apropiado, entonces se rechaza la hipótesis nula de homocedasticidad y se asume heterocedasticidad.

Para llevar a cabo esta prueba en R, se carga a la librería lmtest y en ella recurrimos a la instrucción bptest() usando la siguiente sintaxis:

library(lmtest)
bptest(lm(Y~X))

También se puede llevar a cabo esta prueba en R, cargando la librería car y en ella recurrimos a la instrucción ncvTest() usando la siguiente sintaxis:

library(car)
ncvTest(lm(Y~X))

Ejemplo

Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos llevar a cabo la Prueba de Breusch–Pagan, para esto, usamos la siguiente sintaxis:

library(lmtest)
bptest(lm(salario~escolaridad))

Al ejecutar esta instrucción obtenemos los resultados de la prueba, donde nos interesará de forma particular que el p-value es igual a 0.3394, notando que este valor es mayor que 0.05, entonces no rechazamos la hipótesis nula y podemos asumir que existe homocedasticidad.

En su consola debería aparecer:

> library(lmtest)
> bptest(lm(salario~escolaridad))

	studentized Breusch-Pagan test

data:  lm(salario ~ escolaridad)
BP = 0.91274, df = 1, p-value = 0.3394
Anuncios

Bibliografía complementaria


Observaciones

Las pruebas expuestas en esta lección sirven para hacer algunas aseveraciones y su carácter didáctico es importante para entender el análisis de residuos, sin embargo, Jeffrey Wooldridge en su cuenta de twitter hace algunas observaciones que deben ser consideradas al hacer trabajos más especializados.

Anuncio publicitario

¿Tienes alguna duda? Compártela en los comentarios.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.