Estudiar el comportamiento de los residuos es de vital importancia para el análisis de regresión, pues varios de los supuestos del Modelo Clásico de Regresión Lineal (MCRL) hacen énfasis en los residuos, es por esto que se recurre a herramientas que nos permitan verificar si se cumplen estos supuestos y así, aumentar la confiabilidad sobre las conclusiones que se hagan a partir del modelo planteado.
También pudiera interesarte
Anuncios
Datos a considerar para los ejemplos
Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:
Observación
Salario
Escolaridad
1
4.4567
6
2
5.77
7
3
5.9787
8
4
7.3317
9
5
7.3182
10
6
6.5844
11
7
7.8182
12
8
7.8351
13
9
11.0223
14
10
10.6738
15
11
10.8361
16
12
13.615
17
13
13.531
18
Tabla 3.2
Residuos independientes
Una vez que hemos planteado un modelo lineal, es importante que los residuos alberguen toda esa información que no podemos explicar con la variable independiente, es por esta razón que uno de los supuestos del Modelo Clásico de Regresión Lineal propone que los residuos deben ser independientes de la variable independiente.
Considerando el caso en que la regresora es estocástica, los valores que toma la variable independiente pueden haber sido muestreados junto con la variable dependiente . En este caso se supone que la variable y el término de error son independientes , esto es,
.
Para calcular en R la covarianza de entre la variable independiente y los residuos de nuestro modelo , recurrimos a la instrucción cov() usando la siguiente sintaxis:
cov(X,Y-lm(Y~X)$fitted.values)
Donde, Y.e es la variable que almacena los valores estimados de . Sin embargo, recordando que si definimos el modelo lineal usando la instrucción lm(), podemos hacer un llamado a los residuos usando la sintaxis lm(Y~X)$residuals, de esta forma, podemos determinar la covarianza usando la siguiente sintaxis:
cov(X,lm(Y~X)$residuals)
Ejemplo
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos calcular la covarianza entre la variable independiente Escolaridad y los residuos lm(salario~escolaridad)$residuals, para esto, usamos la siguiente sintaxis:
Al ejecutar esta instrucción obtenemos la covarianza que buscamos, que en este caso es igual a 2.276825e-18, notando que este valor es prácticamente cero, concluimos que los residuos son independientes de la variable Escolaridad.
Estudiar el comportamiento de los residuos es de vital importancia para el análisis de regresión, pues varios de los supuestos del Modelo Clásico de Regresión Lineal (MCRL) hacen énfasis en los residuos, es por esto que se recurre a herramientas que nos permitan verificar si se cumplen estos supuestos y así, aumentar la confiabilidad sobre las conclusiones que se hagan a partir del modelo planteado.
También pudiera interesarte
Anuncios
Tabla de Contenidos
Los análisis que se exponen en esta lectura son los siguientes:
Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:
Observación
Salario
Escolaridad
1
4.4567
6
2
5.77
7
3
5.9787
8
4
7.3317
9
5
7.3182
10
6
6.5844
11
7
7.8182
12
8
7.8351
13
9
11.0223
14
10
10.6738
15
11
10.8361
16
12
13.615
17
13
13.531
18
Tabla 3.2
Residuos independientes
Una vez que hemos planteado un modelo lineal, es importante que los residuos alberguen toda esa información que no podemos explicar con la variable independiente, es por esta razón que uno de los supuestos del Modelo Clásico de Regresión Lineal propone que los residuos deben ser independientes de la variable independiente.
Considerando el caso en que la regresora es estocástica, los valores que toma la variable independiente pueden haber sido muestreados junto con la variable dependiente . En este caso se supone que la variable y el término de error son independientes , esto es,
.
Para calcular en R la covarianza de entre la variable independiente y los residuos de nuestro modelo , recurrimos a la instrucción cov() usando la siguiente sintaxis:
cov(X,Y-lm(Y~X)$fitted.values)
Donde, Y.e es la variable que almacena los valores estimados de . Sin embargo, recordando que si definimos el modelo lineal usando la instrucción lm(), podemos hacer un llamado a los residuos usando la sintaxis lm(Y~X)$residuals, de esta forma, podemos determinar la covarianza usando la siguiente sintaxis:
cov(X,lm(Y~X)$residuals)
Ejemplo
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos calcular la covarianza entre la variable independiente Escolaridad y los residuos lm(salario~escolaridad)$residuals, para esto, usamos la siguiente sintaxis:
Al ejecutar esta instrucción obtenemos la covarianza que buscamos, que en este caso es igual a 2.276825e-18, notando que este valor es prácticamente cero, concluimos que los residuos son independientes de la variable Escolaridad.
La media de los residuos (o perturbaciones) debe ser igual a cero. Para calcular en R la media de los residuos de nuestro modelo , recurrimos a la instrucción mean(), entonces si previamente hemos definido el modelo lineal usando la instrucción lm() usamos la siguiente sintaxis:
mean(Y-lm(Y~X)$fitted.values)
Donde, Y.e es la variable que almacena los valores estimados de . Sin embargo, recordando que si definimos el modelo lineal usando la instrucción lm(), podemos hacer un llamado a los residuos usando la sintaxis lm(Y~X)$residuals, de esta forma, podemos determinar la covarianza usando la siguiente sintaxis:
mean(lm(Y~X)$residuals)
También se pueden apreciar los residuos al observar un resumen del modelo lineal recurriendo la instrucción summary(), usando la siguiente sintaxis:
summary(lm(Y~X)$residuals)
Ejemplo
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos calcular la media de los residuos lm(salario~escolaridad)$residuals, para esto, usamos la siguiente sintaxis:
mean(lm(salario~escolaridad)$residuals)
Al ejecutar esta instrucción obtenemos la media de los residuos, que en este caso es igual a 8.515157e-18, notando que este valor es prácticamente cero, concluimos que la media de los residuos es igual a cero.
En su consola debería aparecer:
> mean(se.lm$residuals)
[1] 8.515157e-18
Anuncios
Homocedasticidad
Para estudiar la homocedasticidad de los residuos o la homogeneidad de la varianza, se estudia qué tan constante es la varianza de los residuos, es decir, se estudia la heterocedasticidad de los residuos y se verifica que esta sea lo más pequeña posible. Para esto, es necesario estudentizar de los residuos de la siguiente forma:
Posteriormente, comparamos los residuos estudentizados con los valores estimados de la variable dependiente y esto se pude hacer de dos formas: Gráficamente o Estadísticamente.
Gráficamente
Haciendo diagrama de dispersión recurriendo a la instrucción plot(), entonces si previamente hemos definido el modelo lineal usando la instrucción lm() usamos la siguiente sintaxis:
En un gráfico donde no haya heterocedasticidad (es decir, que indique homocedasticidad), es necesario que los puntos estén distribuidos de forma aleatoria y repartidos con equidad a través a lo largo del Eje Vertical, es decir, si se traza una recta horizontal en cero, estos no deberían estar acumulados ni por encima ni por debajo de esta recta.
Este gráfico de dispersión se puede generar con mayor detalle usando la instrucción plot() sobre el modelo lineal, que genera cuatro gráficos pero nos interesarán sólo dos de ellos, el 1 y el 3:
plot(lm(Y~X),1)
plot(lm(Y~X),3)
Ejemplo
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos generar un diagrama de dispersión de los residuos y de la raíz cuadrada de los residuos estudentizados uno junto al otro combinando la instrucciones par() y plot(), para esto, usamos la siguiente sintaxis:
Al ejecutar esta instrucción obtenemos los gráficos que estamos buscando:
La línea roja es un ajuste local de los residuos (ponderada localmente) que suaviza los puntos del diagrama de dispersión para facilitad la detección patrones en los residuos. La situación ideal es que esta línea roja sea una se asemeje a una recta horizonal centrada en cero.
En este ejemplo, la línea roja no es una recta horizonal centrada en cero pero estos parecieran estar al menos, distribuidos de forma aleatoria. Sin embargo, debido a la poca cantidad de datos, no podemos hacer una conclusión fehaciente.
Estadísticamente
Prueba de Breush-Pagan
La Breush-Pagan Test (Prueba de Breusch–Pagan), parte del hecho que la media de los residuos es igual a cero y si la varianza no depende de la variable independiente, se puede obtener una estimación de esta varianza a partir del promedio de los cuadrados de los residuos.
De esta forma, a partir del contrarrecíproco, se concluye que si esta estimación de la varianza no se puede obtener, entones la varianza está linealmente relacionada con la variable independiente. Para esto se define una regresión lineal auxiliar para el cuadrado de los residuos
Se plantea entonces como hipótesis nula que existe homocedasticidad y como hipótesis alternativa que existe heterocedasticidad. Es una prueba de chi-cuadrado: el estadístico de prueba se distribuye con grados de libertad. Si el estadístico de prueba tiene un p-value por debajo de un umbral apropiado, entonces se rechaza la hipótesis nula de homocedasticidad y se asume heterocedasticidad.
Para llevar a cabo esta prueba en R, se carga a la librería lmtest y en ella recurrimos a la instrucción bptest() usando la siguiente sintaxis:
library(lmtest)
bptest(lm(Y~X))
También se puede llevar a cabo esta prueba en R, cargando la librería car y en ella recurrimos a la instrucción ncvTest() usando la siguiente sintaxis:
library(car)
ncvTest(lm(Y~X))
Ejemplo
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos llevar a cabo la Prueba de Breusch–Pagan, para esto, usamos la siguiente sintaxis:
library(lmtest)
bptest(lm(salario~escolaridad))
Al ejecutar esta instrucción obtenemos los resultados de la prueba, donde nos interesará de forma particular que el p-value es igual a 0.3394, notando que este valor es mayor que 0.05, entonces no rechazamos la hipótesis nula y podemos asumir que existe homocedasticidad.
En su consola debería aparecer:
> library(lmtest)
> bptest(lm(salario~escolaridad))
studentized Breusch-Pagan test
data: lm(salario ~ escolaridad)
BP = 0.91274, df = 1, p-value = 0.3394
Anuncios
No-Autocorrelación
Sin consideramos dos valores de la variable independiente , digamos y con , la correlación entre dos y cualesquiera es cero. En pocas palabras, estas observaciones se muestrean de manera independiente. Es decir, se verifica que
o, si X no es estocástica,
Esta verificación se pude hacer de dos formas: Gráficamente o Estadísticamente.
Gráficamente
Diagrama de Dispersión
Haciendo diagrama de dispersión recurriendo a la instrucción plot(), entonces si previamente hemos definido el modelo lineal usando la instrucción lm() usamos la siguiente sintaxis:
plot(lm(Y~X)$residuals)
Este gráfico de dispersión se puede generar con mayor detalle usando la instrucción plot() sobre el modelo lineal, que genera cuatro gráficos pero en este caso nos interesarán sólo dos de ellos, el 1 y el 3:
plot(lm(Y~X),1)
plot(lm(Y~X),3)
Un indicador de no autocorrelación es que en el gráfico de dispersión no se presente ningún patrón lineal de comportamiento, en términos coloquiales: deben estar todos a lo loco. Dicho esto, los gráficos de dispersión, sirven principalmente como indicadores pero si no se tiene certeza sobre lo que se observa, lo mejor es llevar a cabo una prueba estadística.
Ejemplo
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos generar un diagrama de dispersión de los residuos y de la raíz cuadrada de los residuos estudentizados uno junto al otro combinando la instrucciones par() y plot(), para esto, usamos la siguiente sintaxis:
Al ejecutar esta instrucción obtenemos los gráficos que estamos buscando:
La línea roja es un ajuste local de los residuos (ponderada localmente) que suaviza los puntos del diagrama de dispersión para facilitad la detección patrones en los residuos. Lo que buscamos es que esta línea roja no describa un comportamiento lineal recta creciente ni decreciente.
En este ejemplo, la línea roja no es una línea recta creciente ni decreciente por lo que estos gráficos sugieren que los residuos no presentan autocorrelación. Hay que tomar en cuenta que los gráficos sirven meramente como indicadores, así que también se deben llevar a cabo pruebas estadísticas.
Estadísticamente
Prueba de Durbin-Watson
Para estudiar la autocorrelación de los residuos, es necesario estudiar la autocorrelación para cualesquiera dos y , esta tarea puede resultar tediosa, así que una de las alternativas es aplicar la Durbin-Watson test (Prueba de Durbin-Watson) que originalmente es usada para datos generados a través del tiempo (Series de Tiempo) para observar si existe una tendencia al comparar periodos previos. En este caso se estudia la relación entre los valores separados el uno del otro por un intervalo de tiempo igual a uno (cada elemento, con su anterior), esto es lo que se conoce como el rezago igual a 1.
Considerando una regresión auxiliar para los residuos expresada como una serie de tiempo usando el coeficiente de correlación , de la forma:
Se plantea la hipótesis nula de que usando el coeficiente de correlación y la hipótesis alternativa es , para probar esta hipótesis se define el siguiente estadístico de prueba:
Se denota con la letra (por Durbin-Watson). Entonces, considerando el coeficiente de correlación muestral de los residuos , el estadístico de prueba es aproximadamente , por lo tanto, si este estadístico de prueba es igual a 2, esto implica que indicando que no existe correlación (serial) entre los residuos.
Para llevar a cabo esta prueba en R, se carga a la librería lmtest y en ella recurrimos a la instrucción dbtest() usando la siguiente sintaxis:
library(lmtest)
dwtest(lm(Y~X))
Ejemplo
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos llevar a cabo la Prueba de Durbin-Watson, para esto, usamos la siguiente sintaxis:
library(lmtest)
dwtest(lm(salario~escolaridad))
Al ejecutar esta instrucción obtenemos los resultados de la prueba, donde nos interesará de forma particular que el p-value es igual a 0.1992, notando que este valor es mayor que 0.05, entonces no rechazamos la hipótesis nula y podemos asumir que los residuos no presentan autocorrelación.
También podemos finarnos en el estadístico de Durbin-Watson, que en este caso es igual a 1.738, que está cercano a 2. Entonces no rechazamos la hipótesis nula y podemos asumir que los residuos no presentan autocorrelación.
En su consola debería aparecer:
> dwtest(lm(salario~escolaridad))
Durbin-Watson test
data: lm(salario ~ escolaridad)
DW = 1.738, p-value = 0.1992
alternative hypothesis: true autocorrelation is greater than 0
Anuncios
Normalidad
El modelo clásico de regresión lineal normal supone que cada está normalmente distribuida si
Media:
Varianza:
Covarianza:
Estos supuestos se expresan en forma más compacta como
Donde el símbolo significa distribuido, denota distribución normal y los términos entre paréntesis representan los dos parámetros de la distribución normal: la media y la varianza, respectivamente.
Esta verificación se pude hacer de dos formas: Gráficamente o Estadísticamente.
Gráficamente
Histograma
Podemos graficar un histograma recurriendo a la instrucción hist() para hacer un histograma representando las frecuencias, entonces si previamente hemos definido el modelo lineal usando la instrucción lm() usamos la siguiente sintaxis:
hist(lm(Y~X)$residuals)
Aunque si queremos ver un histograma representando la densidad, incorporamos la opción prob = TRUE en la instrucción hist() y más aún, si queremos representar sobre nuestro histograma la línea de densidad, recurrimos a la instrucción line() en conjunto con la instrucción density() usando la siguiente sintaxis:
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos generar un histograma de los residuos usando la siguiente sintaxis:
Al ejecutar esta instrucción obtenemos el gráfico que estamos buscando:
El gráfico de barras que representa el histograma no demuestra de forma concreta una distribución normal y aunque la línea pareciera dibujar una especie de campana con una protuberancia en el lado izquierdo, no podemos hacer una conclusión fehaciente, así que también se deben llevar a cabo pruebas estadísticas.
Normal QQ-Plot
El QQ-Plot se traduce como el Diagrama de Cuantil-Cuantil y es un diagrama de dispersión que permite comparar distribución de probabilidades. Una gráfica Q-Q es una gráfica de dispersión creada al graficar dos conjuntos de cuantiles entre sí. Si ambos conjuntos de cuantiles provienen de la misma distribución, deberíamos ver los puntos formando una línea que es aproximadamente recta.
Es decir, al comparar la distribución de probabilidad normal con la distribución de probabilidad de los residuos de nuestro modelo lineal, si estos forman una línea recta, este es un indicador de que los residuos están distribuidos de forma normal.
Este gráfico se puede generar con usando la instrucción plot() sobre el modelo lineal, que genera cuatro gráficos pero en este caso nos interesará sólo uno de ellos, el 2:
plot(lm(Y~X),2)
Ejemplo
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos generar un histograma de los residuos usando la siguiente sintaxis:
plot(lm(salario~escolaridad),2)
Al ejecutar esta instrucción obtenemos el gráfico que estamos buscando:
Aunque no de forma precisa, podemos notar que el diagrama de dispersión pareciera ajustarse a la recta indentidad, representada con una línea punteada, por lo que este gráfico sugiere que sí hay una distribución normal de los residuos. Sin embargo, no podemos hacer una conclusión fehaciente, así que también se deben llevar a cabo pruebas estadísticas.
Estadísticamente
Jarque–Bera test
La Prueba de Jarque-Bera partiendo del hecho de que una distribución normal tiene coeficiente de asimetría igual a 0 y Curtosis igual a 3. Estos dos elementos se miden a partir de los residuos de nuestro modelo lineal usando la siguientes formulas, respectivamente:
y
Definiendo así el coeficiente de asimetría () y la curtosis (), se define el estadístico de Jarque-Bera de la siguiente forma:
Si el valor del estadístico es igual a cero, este es un indicador de que la distribución de los residuos es normal. Más aún, El estadístico de Jarque-Bera se distribuye asintóticamente como una distribución chi cuadrado con dos grados de libertad y puede usarse para probar la hipótesis nula de que los datos pertenecen a una distribución normal. La hipótesis nula es una hipótesis conjunta de que la asimetría y el exceso de curtosis son nulos (asimetría = 0 y curtosis = 3)
Para llevar a cabo esta prueba en R, se carga a la librería tseries y en ella recurrimos a la instrucción jarque.bera.test() usando la siguiente sintaxis:
Una vez que hemos calculado el modelo lineal que define este conjunto de datos usando la instrucción lm(), podemos llevar a cabo la Prueba de Jarque-Bera, para esto, usamos la siguiente sintaxis:
Al ejecutar esta instrucción obtenemos los resultados de la prueba, donde nos interesará de forma particular que el p-value es igual a 0.6608, notando que este valor es mayor que 0.05, entonces no rechazamos la hipótesis nula y podemos asumir que el coeficiente de asimetría es igual a cero y que la curtosis es igual tres, por lo que asumimos que los residuos tienen una distribución normal.
En su consola debería aparecer:
> library(tseries)
> jarque.bera.test(se.lm$residuals)
Jarque Bera Test
data: se.lm$residuals
X-squared = 0.8287, df = 2, p-value = 0.6608
Las pruebas expuestas en esta lección sirven para hacer algunas aseveraciones y su carácter didáctico es importante para entender el análisis de residuos, sin embargo, Jeffrey Wooldridge en su cuenta de twitter hace algunas observaciones que deben ser consideradas al hacer trabajos más especializados.
Tests that should be retired from empirical work:
Durbin-Watson statistic. Jarque-Bera test for normality. Breusch-Pagan test for heteroskedasticity. B-P test for random effects. Nonrobust Hausman tests.
Introducir a la econometría requiere estudiar de forma minuciosa cada uno de los elementos que permiten el análisis de regresión y si bien podemos calcular cada uno de estos usando las fórmulas que provee la teoría, la idea de usar programas de paquetes estadísticos como R es usar instrucciones que nos permitan hacer este tipo de cálculos de forma automática.
También pudiera interesarte
Anuncios
La instrucción lm()
Si se cuentan con al menos dos variables, digamos y , podemos determinar la Recta de Regresión Muestral usando la instrucción lm() usando la virgulilla ~ para definir la relación entre las dos variables. La sintaxis para definir un modelo lineal que describa a la variable dependiente en función de la variable independiente es la siguiente:
lm(Y ~ x)
Al ejecutar esta instrucción se mostrará el valor de que es el punto de corte con el Eje de la variable ) y el valor de que es el parámetro que multiplica a la variable (también conocido como el peso de la variable).
Esta información puede almacenarse en una variable pues a partir de ella obtener información valiosa sobre nuestro modelo. Entonces, para almacenar esta información en una variable, digamos yx.lm, usamos la siguiente sintaxis:
yx.lm <- lm(Y ~ x)
Veamos la información básica que podemos obtener definiendo del modelo lineal de esta forma.
coefficients
Podemos observar directamente los coeficientes del modelo lineal haciendo el llamado coefficients a partir de la variable que almacena la información del modelo lineal, para esto, recurrimos el símbolo de dólar $ usando la siguiente sintaxis:
yx.lm$coefficients
residuals
Podemos observar directamente los residuos del modelo lineal haciendo el llamado residuals a partir de la variable que almacena la información del modelo lineal, para esto, recurrimos el símbolo de dólar $ usando la siguiente sintaxis:
yx.lm$residuals
fitted.values
Podemos observar directamente los valores ajustados del modelo lineal, es decir, todos los valores estimados , haciendo el llamado fitted.values a partir de la variable que almacena la información del modelo lineal, para esto, recurrimos el símbolo de dólar $ usando la siguiente sintaxis:
yx.lm$fitted.values
Anuncios
La instrucción summary()
Si bien se puede obtener información individual haciendo un llamado a algunos elementos específicos del modelo lineal, una de las herramientas más valiosas que provee R para el análisis regresión lineal es el resumen del modelo pues a partir de él, podemos consultar los siguientes elementos:
Sobre el llamado
Call – Nos indica la fórmula que define el modelo lineal.
Sobre los residuos
Min – Mínimo.
1Q – Primer cuartil Q1.
Median – Media (o segundo cuartil Q2)
3Q – Tercer cuartil Q3
Max – Máximo.
Es importante verificar que el valor de la media de los residuos sea cero o esté muy cercano a cero, pues este es uno de los supuestos del Método de los Mínimos Cuadrado Ordinarios (MCO).
Sobre los coeficientes
Estimate – Estimadores .
Std. Error – Error estándar de cada estimador.
t value – Valor del estadístico correspondiente a cada estimador.
Pr(>|t|) – p-value correspondiente la prueba t de cada estimador.
Signif. codes – Códigos de significancia.
En este caso la prueba t plantea la hipótesis nula , por lo tanto, es importante verificar que el valor sea lo más grande posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.
El valor p o p-value determina la probabilidad exacta de cometer un error tipo I considerando el valor calculado, por lo tanto, es importante verificar que este valor sea lo más bajo posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.
Para facilitar la interpretación del p-value, se utiliza un código de significancia, notando que
0 ‘***’ La probabilidad de cometer un error tipo I es prácticamente nula.
0.001 ‘**’ La probabilidad de cometer un error tipo I es de a lo sumo el 0.1%.
0.01 ‘*’ La probabilidad de cometer un error tipo I es de a lo sumo el 1%.
0.05 ‘.’ La probabilidad de cometer un error tipo I es de a lo sumo el 5%.
0.1 ‘ ’ La probabilidad de cometer un error tipo I es de a lo sumo el 1%.
Residual standard error – Error estándar de estimación o error estándar de la regresión.
Recordando que el error estándar de estimación nos sirve como una medida de bondad de ajuste, es importante verificar que este sea lo más pequeño posible, recordando siempre que este nunca es igual a cero, pues se define a partir de una suma de cuadrados.
Multiple R-squared – Coeficiente de Determinación (sin ajuste al añadir más variables)
Adjusted R-squared – Coeficiente de Determinación (con ajuste al añadir más variables)
Es importante añadir que al definir modelos, estos no necesariamente se determinan con dos variables, así que al incluir más variables el coeficiente de determinación que determina Multiple R-squared aumentará a medida que se agregan variables, por otra parte, el coeficiente de determinación que determina Adjusted R-squared será corregido por la cantidad de variables involucradas en el modelo por lo que indica de forma más realista en qué medida las variables independientes (en conjunto) explican a la variable dependiente.
Recordemos que si bien es importante que la variable independiente explique la variable pendiente, el objetivo del análisis de regresión no es que el valor del coeficiente de determinación sea igual a 1.
Sobre el estadístico F
F-statistic – Estadístico F.
Para el caso de dos variables, la prueba F plantea la hipótesis nula , por lo tanto, es importante verificar que el valor sea lo más grande posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.
Para el caso de más variables, se plantea una hipótesis conjunta , y de igual forma, es importante verificar que el valor sea lo más grande posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.
El valor p o p-value determina la probabilidad exacta de cometer un error tipo I considerando el valor calculado, por lo tanto, es importante verificar que este valor sea lo más bajo posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.
Anuncios
Ejemplo
Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:
Observación
Salario
Escolaridad
1
4.4567
6
2
5.77
7
3
5.9787
8
4
7.3317
9
5
7.3182
10
6
6.5844
11
7
7.8182
12
8
7.8351
13
9
11.0223
14
10
10.6738
15
11
10.8361
16
12
13.615
17
13
13.531
18
Tabla 3.2
Definimos un modelo lineal que describe el salario en función de la escolaridad con la instrucción lm() y almacenamos esta información en la variable se.lm usando la siguiente sintaxis:
se.lm <- lm(salario ~ escolaridad)
Posteriormente, hacemos un resumen de la información que provee este modelo lineal con la instrucción summary() usando la siguiente sintaxis:
summary(se.lm)
Al ejecutar esta instrucción, inmediatamente aparecerá lo siguiente en la consola:
> summary(se.lm)
Call:
lm(formula = salario ~ escolaridad)
Residuals:
Min 1Q Median 3Q Max
-1.5637 -0.7350 0.1266 0.7158 1.3198
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.01445 0.87462 -0.017 0.987
escolaridad 0.72410 0.06958 10.406 4.96e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9387 on 11 degrees of freedom
Multiple R-squared: 0.9078, Adjusted R-squared: 0.8994
F-statistic: 108.3 on 1 and 11 DF, p-value: 4.958e-07
Usualmente el análisis de regresión se enfoca en el coeficiente que acompaña a la variable independiente y le resta importancia a los resultados expuestos sobre el intercepto. Dicho esto, podemos identificar los siguientes elementos en el resumen generado:
La media de los residuos es igual a 0.1266, esto es un valor relativamente cercano a cero. Esto es algo que nos interesa pues es uno de los supuestos que debe cumplirse para que el Método de los Mínimos Cuadrados Ordinarios tenga validez.
El valor del intercepto es $\hat(\beta)_1 = -0.01445$, esto quiere decir que una persona sin educación tiene un salario negativo y aunque esta situación carece se sentido, veremos en los demás resultados del resumen, que este valor tiene poca relevancia.
El valor del coeficiente que acompaña a la variable es $\hat(\beta)_2 = 0.72410$, esto quiere decir que cada año adicional de escolaridad, en promedio, produce aumentos en los salarios por hora de alrededor de 72 centavos de dólar.
El modelo lineal está expresado de la siguiente forma:
El error estándar correspondiente al nivel de estudios (escolaridad), indica que en promedio, las estimaciones variarán en 0.06958.
El valor t para el estimador es igual a -0.017, está muy cercano a cero, esto quiere decir que la hipótesis nula no se rechaza, es decir, el estimador no es un elemento significativo en nuestro modelo.
El valor t para el estimador es igual a 10.406, está muy lejano de cero, por lo tanto la hipótesis nula se rechaza, y así, concluimos que el estimador es un elemento bastante significativo en nuestro modelo.
El p-value para el estimador es igual a 0.987, está muy cercano a uno, esto quiere decir que la hipótesis nula no se rechaza, es decir, el estimador no es un elemento significativo en nuestro modelo.
El p-value para el estimador es prácticamente cero, por lo tanto la hipótesis nula se rechaza, y así, concluimos que el estimador es un elemento bastante significativo en nuestro modelo.
El error estándar de los residuos es 0.9387, esto quiere decir que cualquier estimación que hagamos variará en 0.9387 centavos de dólar. Proporcionablemente, si comparamos esto con el promedio inicial -0.01445, tenemos que nuestra predicción se desviará en un 65.1875%.
El coeficiente de determinación múltiple es igual a 0.9078 y el coeficiente de determinación ajustado es igual a 0.8994, recordemos que este último es corregido por la cantidad de variables y por eso es menor. En ambos casos, es relativamente alto, por lo que podemos concluir que los salarios están explicados en alrededor del 90% por el nivel de escolaridad.
El valor F es igual a 108.3, es decir, está muy lejano de uno, por lo tanto la hipótesis nula se rechaza, y así, concluimos que el estimador es un elemento bastante significativo en nuestro modelo.
El p-value para el estimador prácticamente cero, por lo tanto la hipótesis nula se rechaza, y así, concluimos que el estimador es un elemento bastante significativo en nuestro modelo.
Una vez que hemos aprendido a calcular los intervalos de confianza podemos definir un entorno donde pudiera vivir nuestro parámetro poblacional, sin embargo, es necesario definir un elemento que nos permita usar este entorno para determinar si el planteamiento de nuestra investigación, se ajusta a la estimación que hemos hecho.
La idea básica de las pruebas de significancia es la de definir un estadístico de prueba y su distribución muestral según la hipótesis nula. La decisión de rechazar o no rechazar la hipótesis nula se toma con base en el valor del estadístico de prueba obtenido con los datos disponibles.
También pudiera interesarte
Anuncios
Prueba de significancia de los coeficientes de regresión: la prueba t
Con el supuesto de normalidad de , los estimadores de MCO y son en sí mismos normalmente distribuidos con sus medias y varianzas correspondientes. Por consiguiente, la variable
Sigue la distribución con grados de libertad. Si el valor del verdadero se especifica con la hipótesis nula, el valor se calcula fácilmente a partir de la muestra disponible y, por consiguiente, sirve como estadístico de prueba.
Y como este estadístico de prueba sigue una distribución , caben afirmaciones sobre los intervalos de confianza como la siguiente:
donde es el valor de que se plantea en la hipótesis nula y y son los valores de (los valores críticos de ) obtenidos de la tabla t para un nivel de significancia y grados de libertad.
Reescribiendo la inecuación involucrada, tenemos que
obteniendo así, el intervalo en el cual se encontrará con probabilidad , dado .
Calculamos los valores críticos en R usando la siguiente sintaxis:
En el lenguaje de pruebas de hipótesis, este intervalo de confianza a se conoce como la región de no rechazo (de la hipótesis nula ), y la región que queda fuera del intervalo de confianza conoce como región de rechazo (de la hipótesis nula ) o región crítica.
Los límites de confianza dados por los puntos extremos del intervalo de confianza se llaman también valores críticos.
Ahora se aprecia la estrecha conexión entre los enfoques de intervalo de confianza y prueba de significancia para realizar pruebas de hipótesis, pues al compararlos, tenemos que:
En el enfoque de intervalo de confianza se trata de establecer un rango o intervalo que tenga una probabilidad determinada de contener al verdadero aunque desconocido
En el enfoque de prueba de significancia se somete a hipótesis algún valor de y se ve si el estimador calculado se encuentra dentro de los límites (de confianza) razonables alrededor del valor sometido a hipótesis.
Sin embargo, en la práctica, no hay necesidad de estimar este intervalo explícitamente. Se calcula el valor de y se ve si cae entre los valores críticos o fuera de ellos y calculamos el valor de en R usando la siguiente sintaxis:
t.c <- (betai - H0.betai)/ee.betai
Ejemplo
Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:
Observación
Salario
Escolaridad
1
4.4567
6
2
5.77
7
3
5.9787
8
4
7.3317
9
5
7.3182
10
6
6.5844
11
7
7.8182
12
8
7.8351
13
9
11.0223
14
10
10.6738
15
11
10.8361
16
12
13.615
17
13
13.531
18
Tabla 3.2
Sabiendo que , y . Si consideramos , entonces .
Considerando la hipótesis nula y la hipótesis alternativa , calculamos los valores críticos en R usando la siguiente sintaxis:
Una vez ejecutadas estas instrucciones, obtenemos que
De forma gráfica, podemos expresar esta probabilidad así
Notamos entonces, que el valor está en la región de rechazo, por lo tanto, se rechaza la hipótesis nula .
Veamos ahora, qué es lo que ocurre con el valor que hemos calculado de . ¿Cae entre los valores críticos o fuera de ellos? . Calculamos el valor de en R usando la siguiente sintaxis:
En el siguiente gráfico, vemos con claridad que el valor se encuentra en la región crítica y la conclusión se mantiene; es decir, rechazamos .
En su pantalla debería aparecer:
Notas:
Observe que si el estimado es igual al hipotético, el valor será cero. Por otra parte, a la medida en que el valor de estimado se aleje del valor hipotético de , el será cada vez mayor. Por consiguiente, un valor grande de nos permite rechazar la hipótesis nula con mayor confianza.
En la práctica, se plantea la hipótesis nula (con énfasis en ) pues al rechazar esta hipótesis, podemos asegurar con cierto grado de confianza, que y así, concluir que la variable que acompaña a explica a la variable dependiente.
Una vez que hemos calculado los estimadores de la Función de Regresión Muestral, es decir, y sabiendo que estos cálculos están basados en una muestra, debemos ser cautelosos con las afirmaciones que derivan a partir de dichos estimadores, es por esto que debemos determinar una forma de medir qué tan confiables son estos cálculos.
También pudiera interesarte
Anuncios
¿Qué es un intervalo de confianza?
Habiendo definido el error estándar como una herramienta para medir qué tan precisos son nuestros estimadores, resulta intuitivo, definir un entorno en el que viven nuestros estimadores basado en el error estándar. Generalmente, esto se hace considerando intervalos centrados en el estimador de longitud igual a dos, cuatro y hasta seis veces el error estándar, esperando que este intervalo contenga el verdadero parámetro (de la Función de Regresión Poblacional) con un cierto grado de confianza.
Recordando que al contar únicamente con muestras, los verdaderos parámetros de la Función de Regresión Poblacional son desconocidos, consideremos particularmente, que queremos determinar qué tan cerca está el estimador del verdadero parámetro $\beta_i$, para esto se consideran dos números positivos y () de modo que la probabilidad de que el intervalo aleatorio contenga al verdadero sea igual a , es decir,
A partir de esta igualdad podemos identificar algunos elementos:
es el intervalo de confianza y este intervalo pudiera no contener al verdadero valor.
Los extremos del intervalo de confianza se conocen como límites de confianza, donde es el límite de confianza inferior y es el límite de confianza superior.
es el coeficiente de confianza, en la práctica, suele expresarse en forma porcentual como .
es el nivel de significancia, en la práctica, suele expresarse en forma porcentual como .
El nivel de significancia también es conocido como la probabilidad de cometer un error tipo I. Recordando que
un error tipo I consiste en rechazar una hipótesis verdadera
un error tipo II consiste en no rechazar una hipótesis falsa.
En el primer panel se lee: Usted está embarazado. En el segundo panel se lee: Usted no está embaraza.
Intervalos de confianza de los estimadores
Considerando el supuesto de que los residuos siguen una distribución normal, podemos concluir que los estimadores de Mínimos Cuadrados Ordinarios y son en sí mismos normalmente distribuidos con sus medias y varianzas correspondientes. Sabiendo esto, podemos definir una variable distribuida normalmente con media cero y varianza igual a uno, de la siguiente forma:
Así, se puede utilizar la distribución normal para hacer afirmaciones probabilísticas sobre , siempre que se conozca la verdadera varianza poblacional .
Si se conoce , una propiedad importante de una variable normalmente distribuida con media y varianza es que el área bajo la curva normal entre es cercana a 68%, que entre es alrededor de 95%, y que entre los límites el área es cercana a 99.7%.
Pero pocas veces se conoce el verdadero valor de y, en la práctica, está determinada por el estimador insesgado . Entonces, si en nuestra variable estandarizada Z, se reemplaza por , tenemos que
Es posible demostrar que la variable , así definida, sigue la distribución con grados de libertad. Por consiguiente, en lugar de utilizar la distribución normal, se puede utilizar la distribución para construir un intervalo de confianza para de la siguiente forma:
donde es el valor de la variable obtenida de la distribución para un nivel de significancia de y grados de libertad; a menudo se denomina el valor crítico a un nivel de significancia .
Considerando , podemos considerar el siguiente intervalo de confianza.
Intervalo de confianza para
Considerando la ecuación
Podemos manipular algebraicamente, para obtener que
Esta ecuación proporciona un intervalo de confianza para de , que se escribe en forma más compacta como
Calculamos los límites de confianza en R usando la siguiente sintaxis:
Considerando el supuesto de que los residuos siguen una distribución normal, podemos concluir que la variable
sigue la distribución con grados de libertad. Por lo tanto, con la distribución se establece el intervalo de confianza para
Donde y son dos valores de (los valores críticos ) obtenidos de la tabla chi cuadrado para grados de libertad de manera que ellos cortan de las áreas de las colas de la distribución .
Sustituyendo por y operando algebraicamente en la inecuación, tenemos que
Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:
Observación
Salario
Escolaridad
1
4.4567
6
2
5.77
7
3
5.9787
8
4
7.3317
9
5
7.3182
10
6
6.5844
11
7
7.8182
12
8
7.8351
13
9
11.0223
14
10
10.6738
15
11
10.8361
16
12
13.615
17
13
13.531
18
Tabla 3.2
Una vez que hemos calculado el modelo lineal que define este conjunto de datos y en consecuencia, los parámetros estimados. Con un nivel de significancia de 5%, es decir, , podemos calcular los intervalos de confianza de ambos estimadores y además, el intervalo de confianza de la desviación estándar estimada, para esto, usamos la siguiente sintaxis:
# Nivel de Significancia
alpha <- 0.05
# Intervalo de Confianza de beta2
li.beta2 <- beta2 - qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta2
ls.beta2 <- beta2 + qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta2
# Intervalo de Confianza de beta1
li.beta1 <- beta1 - qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta1
ls.beta1 <- beta1 + qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta1
# Intervalo de Confianza de sigma2
li.sigma2 <- (length(escolaridad)-2)*sigma2.e/qchisq(alpha/2,df=length(escolaridad)-2,lower.tail=F)
ls.sigma2 <- (length(escolaridad)-2)*sigma2.e/qchisq(1-alpha/2,df=length(escolaridad)-2,lower.tail=F)
Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro es igual a
y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero es de 0.95,
Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro es igual a
y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero es de 0.95.
Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro es igual a
y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero es de 0.95.