Estudiar el comportamiento de los residuos $u_i = Y_i - \hat{Y}_i$ es de vital importancia para el análisis de regresión, pues varios de los supuestos del Modelo Clásico de Regresión Lineal (MCRL) hacen énfasis en los residuos, es por esto que se recurre a herramientas que nos permitan verificar si se cumplen estos supuestos y así, aumentar la confiabilidad sobre las conclusiones que se hagan a partir del modelo planteado.

También pudiera interesarte

Datos a considerar para los ejemplos

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

Observación	Salario	Escolaridad
1	4.4567	6
2	5.77	7
3	5.9787	8
4	7.3317	9
5	7.3182	10
6	6.5844	11
7	7.8182	12
8	7.8351	13
9	11.0223	14
10	10.6738	15
11	10.8361	16
12	13.615	17
13	13.531	18

Tabla 3.2

No-Autocorrelación

Sin consideramos dos valores de la variable independiente $X$ , digamos $X_i$ y $X_j$ con $(ineq j)$ , la correlación entre dos $u_i$ y $u_j$ cualesquiera $(ineq j)$ es cero. En pocas palabras, estas observaciones se muestrean de manera independiente. Es decir, se verifica que

$cov(u_i, u_j |X_i, X_j)=0$ o, si X no es estocástica, $cov(u_i, u_j)=0$

Esta verificación se pude hacer de dos formas: Gráficamente o Estadísticamente.

Gráficamente

Diagrama de Dispersión

Haciendo diagrama de dispersión recurriendo a la instrucción plot(), entonces si previamente hemos definido el modelo lineal usando la instrucción lm() usamos la siguiente sintaxis:

plot(lm(Y~X)$residuals)

Este gráfico de dispersión se puede generar con mayor detalle usando la instrucción plot() sobre el modelo lineal, que genera cuatro gráficos pero en este caso nos interesarán sólo dos de ellos, el 1 y el 3:

plot(lm(Y~X),1)
plot(lm(Y~X),3)

Un indicador de no autocorrelación es que en el gráfico de dispersión no se presente ningún patrón lineal de comportamiento, en términos coloquiales: deben estar todos a lo loco. Dicho esto, los gráficos de dispersión, sirven principalmente como indicadores pero si no se tiene certeza sobre lo que se observa, lo mejor es llevar a cabo una prueba estadística.

Ejemplo

Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos generar un diagrama de dispersión de los residuos y de la raíz cuadrada de los residuos estudentizados uno junto al otro combinando la instrucciones par() y plot(), para esto, usamos la siguiente sintaxis:

#par(mfrow = c(1,2))
plot(lm(salario~escolaridad),1)
plot(lm(salario~escolaridad),3)

Al ejecutar esta instrucción obtenemos los gráficos que estamos buscando:

La línea roja es un ajuste local de los residuos (ponderada localmente) que suaviza los puntos del diagrama de dispersión para facilitad la detección patrones en los residuos. Lo que buscamos es que esta línea roja no describa un comportamiento lineal recta creciente ni decreciente.

En este ejemplo, la línea roja no es una línea recta creciente ni decreciente por lo que estos gráficos sugieren que los residuos no presentan autocorrelación. Hay que tomar en cuenta que los gráficos sirven meramente como indicadores, así que también se deben llevar a cabo pruebas estadísticas.

Estadísticamente

Prueba de Durbin-Watson

Para estudiar la autocorrelación de los residuos, es necesario estudiar la autocorrelación para cualesquiera dos $u_i$ y $u_j$ , esta tarea puede resultar tediosa, así que una de las alternativas es aplicar la Durbin-Watson test (Prueba de Durbin-Watson) que originalmente es usada para datos generados a través del tiempo (Series de Tiempo) para observar si existe una tendencia al comparar periodos previos. En este caso se estudia la relación entre los valores separados el uno del otro por un intervalo de tiempo igual a uno (cada elemento, con su anterior), esto es lo que se conoce como el rezago igual a 1.

Considerando una regresión auxiliar para los residuos expresada como una serie de tiempo usando el coeficiente de correlación $rho$ , de la forma:

$u_i = rho u_{i-1}+ nu_i$

Se plantea la hipótesis nula de que usando el coeficiente de correlación $rho = 0$ y la hipótesis alternativa es $rho neq 0$ , para probar esta hipótesis se define el siguiente estadístico de prueba:

$d = dfrac{sum_{i=2}^n (u_i - u_{i-1})^2}{sum_{i=1}^n u_i^2}$

Se denota con la letra $d$ (por Durbin-Watson). Entonces, considerando el coeficiente de correlación muestral de los residuos $hat{rho}$ , el estadístico de prueba $d$ es aproximadamente $2(1-hat{rho}$ , por lo tanto, si este estadístico de prueba es igual a 2, esto implica que $hat{rho} = 0$ indicando que no existe correlación (serial) entre los residuos.

Para llevar a cabo esta prueba en R, se carga a la librería lmtest y en ella recurrimos a la instrucción dbtest() usando la siguiente sintaxis:

library(lmtest)
dwtest(lm(Y~X))

Ejemplo

Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos llevar a cabo la Prueba de Durbin-Watson, para esto, usamos la siguiente sintaxis:

library(lmtest)
dwtest(lm(salario~escolaridad))

Al ejecutar esta instrucción obtenemos los resultados de la prueba, donde nos interesará de forma particular que el p-value es igual a 0.1992, notando que este valor es mayor que 0.05, entonces no rechazamos la hipótesis nula y podemos asumir que los residuos no presentan autocorrelación.

También podemos finarnos en el estadístico de Durbin-Watson, que en este caso es igual a 1.738, que está cercano a 2. Entonces no rechazamos la hipótesis nula y podemos asumir que los residuos no presentan autocorrelación.

En su consola debería aparecer:

> dwtest(lm(salario~escolaridad))
	Durbin-Watson test
data:  lm(salario ~ escolaridad)
DW = 1.738, p-value = 0.1992
alternative hypothesis: true autocorrelation is greater than 0

Anuncios

Bibliografía complementaria

Linear Regression Example in R using lm() Function – Learn by Marketing. (2021). Learnbymarketing.com. Retrieved 3 June 2021, from http://www.learnbymarketing.com/tutorials/linear-regression-in-r/
Diseño Experimental. (2021). Red.unal.edu.co. Retrieved 4 June 2021, from http://red.unal.edu.co/cursos/ciencias/2007315/html/un6/cont_05_66.html
Durbin–Watson statistic – Wikipedia. (2012). En.wikipedia.org. Retrieved 4 June 2021, from https://en.wikipedia.org/wiki/Durbin%E2%80%93Watson_statistic

Observaciones

Las pruebas expuestas en esta lección sirven para hacer algunas aseveraciones y su carácter didáctico es importante para entender el análisis de residuos, sin embargo, Jeffrey Wooldridge en su cuenta de twitter hace algunas observaciones que deben ser consideradas al hacer trabajos más especializados.

Tests that should be retired from empirical work:

Durbin-Watson statistic.
Jarque-Bera test for normality.
Breusch-Pagan test for heteroskedasticity.
B-P test for random effects.
Nonrobust Hausman tests.

I feel uncomfortable using names, but this is #metricstotheface.
— Jeffrey Wooldridge (@jmwooldridge) April 30, 2021

totumat

¡Tu guía de matemáticas!

R: No-Autocorrelación de los Residuos

Datos a considerar para los ejemplos

No-Autocorrelación

Gráficamente

Diagrama de Dispersión

Ejemplo

Estadísticamente

Prueba de Durbin-Watson

Ejemplo

Bibliografía complementaria

Observaciones

¿Tienes alguna duda? Compártela en los comentarios. Cancelar la respuesta

Datos a considerar para los ejemplos

No-Autocorrelación

Gráficamente

Diagrama de Dispersión

Ejemplo

Estadísticamente

Prueba de Durbin-Watson

Ejemplo

Bibliografía complementaria

Observaciones

Comparte

Related

¿Tienes alguna duda? Compártela en los comentarios. Cancelar la respuesta