R: La instrucción lm()

Introducir a la econometría requiere estudiar de forma minuciosa cada uno de los elementos que permiten el análisis de regresión y si bien podemos calcular cada uno de estos usando las fórmulas que provee la teoría, la idea de usar programas de paquetes estadísticos como R es usar instrucciones que nos permitan hacer este tipo de cálculos de forma automática.

También pudiera interesarte

Anuncios

La instrucción lm()

Si se cuentan con al menos dos variables, digamos Y y X, podemos determinar la Recta de Regresión Muestral usando la instrucción lm() usando la virgulilla ~ para definir la relación entre las dos variables. La sintaxis para definir un modelo lineal que describa a la variable dependiente Y en función de la variable independiente X es la siguiente:

lm(Y ~ x)

Al ejecutar esta instrucción se mostrará el valor de \hat{\beta}_1 que es el punto de corte con el Eje de la variable Y) y el valor de \hat{\beta}_2 que es el parámetro que multiplica a la variable X (también conocido como el peso de la variable).

Esta información puede almacenarse en una variable pues a partir de ella obtener información valiosa sobre nuestro modelo. Entonces, para almacenar esta información en una variable, digamos yx.lm, usamos la siguiente sintaxis:

yx.lm <- lm(Y ~ x)

Veamos la información básica que podemos obtener definiendo del modelo lineal de esta forma.

coefficients

Podemos observar directamente los coeficientes del modelo lineal haciendo el llamado coefficients a partir de la variable que almacena la información del modelo lineal, para esto, recurrimos el símbolo de dólar $ usando la siguiente sintaxis:

yx.lm$coefficients

residuals

Podemos observar directamente los residuos del modelo lineal haciendo el llamado residuals a partir de la variable que almacena la información del modelo lineal, para esto, recurrimos el símbolo de dólar $ usando la siguiente sintaxis:

yx.lm$residuals

fitted.values

Podemos observar directamente los valores ajustados del modelo lineal, es decir, todos los valores estimados \hat{Y}_i, haciendo el llamado fitted.values a partir de la variable que almacena la información del modelo lineal, para esto, recurrimos el símbolo de dólar $ usando la siguiente sintaxis:

yx.lm$fitted.values
Anuncios

La instrucción summary()

Si bien se puede obtener información individual haciendo un llamado a algunos elementos específicos del modelo lineal, una de las herramientas más valiosas que provee R para el análisis regresión lineal es el resumen del modelo pues a partir de él, podemos consultar los siguientes elementos:

Sobre el llamado

  • Call – Nos indica la fórmula que define el modelo lineal.

Sobre los residuos

  • Min – Mínimo.
  • 1Q – Primer cuartil Q1.
  • Median – Media (o segundo cuartil Q2)
  • 3Q – Tercer cuartil Q3
  • Max – Máximo.

Es importante verificar que el valor de la media de los residuos sea cero o esté muy cercano a cero, pues este es uno de los supuestos del Método de los Mínimos Cuadrado Ordinarios (MCO).

Sobre los coeficientes

  • Estimate – Estimadores \beta_i.
  • Std. Error – Error estándar de cada estimador.
  • t value – Valor del estadístico t correspondiente a cada estimador.
  • Pr(>|t|)p-value correspondiente la prueba t de cada estimador.
  • Signif. codes – Códigos de significancia.

En este caso la prueba t plantea la hipótesis nula H_0 : beta_i = 0, por lo tanto, es importante verificar que el valor t sea lo más grande posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.

El valor p o p-value determina la probabilidad exacta de cometer un error tipo I considerando el valor t calculado, por lo tanto, es importante verificar que este valor sea lo más bajo posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.

Para facilitar la interpretación del p-value, se utiliza un código de significancia, notando que

  • 0 ‘***’ La probabilidad de cometer un error tipo I es prácticamente nula.
  • 0.001 ‘**’ La probabilidad de cometer un error tipo I es de a lo sumo el 0.1%.
  • 0.01 ‘*’ La probabilidad de cometer un error tipo I es de a lo sumo el 1%.
  • 0.05 ‘.’ La probabilidad de cometer un error tipo I es de a lo sumo el 5%.
  • 0.1 ‘ ’ La probabilidad de cometer un error tipo I es de a lo sumo el 1%.

Sobre el error estándar de los residuos

  • Residual standard error – Error estándar de estimación o error estándar de la regresión.

Recordando que el error estándar de estimación nos sirve como una medida de bondad de ajuste, es importante verificar que este sea lo más pequeño posible, recordando siempre que este nunca es igual a cero, pues se define a partir de una suma de cuadrados.

Sobre el coeficiente de determinación

  • Multiple R-squared – Coeficiente de Determinación (sin ajuste al añadir más variables)
  • Adjusted R-squared – Coeficiente de Determinación (con ajuste al añadir más variables)

Es importante añadir que al definir modelos, estos no necesariamente se determinan con dos variables, así que al incluir más variables el coeficiente de determinación que determina Multiple R-squared aumentará a medida que se agregan variables, por otra parte, el coeficiente de determinación que determina Adjusted R-squared será corregido por la cantidad de variables involucradas en el modelo por lo que indica de forma más realista en qué medida las variables independientes (en conjunto) explican a la variable dependiente.

Recordemos que si bien es importante que la variable independiente explique la variable pendiente, el objetivo del análisis de regresión no es que el valor del coeficiente de determinación sea igual a 1.

Sobre el estadístico F

  • F-statistic – Estadístico F.

Para el caso de dos variables, la prueba F plantea la hipótesis nula H_0 : beta_2 = 0, por lo tanto, es importante verificar que el valor F sea lo más grande posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.

Para el caso de más variables, se plantea una hipótesis conjunta H_0 : beta_2 = \beta_3 = ... = \beta_k = 0, y de igual forma, es importante verificar que el valor F sea lo más grande posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.

El valor p o p-value determina la probabilidad exacta de cometer un error tipo I considerando el valor F calculado, por lo tanto, es importante verificar que este valor sea lo más bajo posible, pues esto nos indica la confianza con la que podemos rechazar la hipótesis nula.

Anuncios

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Definimos un modelo lineal que describe el salario en función de la escolaridad con la instrucción lm() y almacenamos esta información en la variable se.lm usando la siguiente sintaxis:

se.lm <- lm(salario ~ escolaridad)

Posteriormente, hacemos un resumen de la información que provee este modelo lineal con la instrucción summary() usando la siguiente sintaxis:

summary(se.lm)

Al ejecutar esta instrucción, inmediatamente aparecerá lo siguiente en la consola:

> summary(se.lm)

Call:
lm(formula = salario ~ escolaridad)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.5637 -0.7350  0.1266  0.7158  1.3198 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.01445    0.87462  -0.017    0.987    
escolaridad  0.72410    0.06958  10.406 4.96e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9387 on 11 degrees of freedom
Multiple R-squared:  0.9078,	Adjusted R-squared:  0.8994 
F-statistic: 108.3 on 1 and 11 DF,  p-value: 4.958e-07

Usualmente el análisis de regresión se enfoca en el coeficiente que acompaña a la variable independiente y le resta importancia a los resultados expuestos sobre el intercepto. Dicho esto, podemos identificar los siguientes elementos en el resumen generado:

  • La media de los residuos es igual a 0.1266, esto es un valor relativamente cercano a cero. Esto es algo que nos interesa pues es uno de los supuestos que debe cumplirse para que el Método de los Mínimos Cuadrados Ordinarios tenga validez.
  • El valor del intercepto es $\hat(\beta)_1 = -0.01445$, esto quiere decir que una persona sin educación tiene un salario negativo y aunque esta situación carece se sentido, veremos en los demás resultados del resumen, que este valor tiene poca relevancia.
  • El valor del coeficiente que acompaña a la variable X es $\hat(\beta)_2 = 0.72410$, esto quiere decir que cada año adicional de escolaridad, en promedio, produce aumentos en los salarios por hora de alrededor de 72 centavos de dólar.
  • El modelo lineal está expresado de la siguiente forma:

\hat{Y}_i = -0.01445 + 0.72410 X

  • El error estándar correspondiente al nivel de estudios (escolaridad), indica que en promedio, las estimaciones variarán en 0.06958.
  • El valor t para el estimador \hat{\beta}_1 es igual a -0.017, está muy cercano a cero, esto quiere decir que la hipótesis nula no se rechaza, es decir, el estimador \hat{\beta}_1 no es un elemento significativo en nuestro modelo.
  • El valor t para el estimador \hat{\beta}_2 es igual a 10.406, está muy lejano de cero, por lo tanto la hipótesis nula se rechaza, y así, concluimos que el estimador \hat{\beta}_2 es un elemento bastante significativo en nuestro modelo.
  • El p-value para el estimador \hat{\beta}_1 es igual a 0.987, está muy cercano a uno, esto quiere decir que la hipótesis nula no se rechaza, es decir, el estimador \hat{\beta}_1 no es un elemento significativo en nuestro modelo.
  • El p-value para el estimador \hat{\beta}_2 es prácticamente cero, por lo tanto la hipótesis nula se rechaza, y así, concluimos que el estimador \hat{\beta}_2 es un elemento bastante significativo en nuestro modelo.
  • El error estándar de los residuos es 0.9387, esto quiere decir que cualquier estimación que hagamos variará en 0.9387 centavos de dólar. Proporcionablemente, si comparamos esto con el promedio inicial -0.01445, tenemos que nuestra predicción se desviará en un 65.1875%.
  • El coeficiente de determinación múltiple es igual a 0.9078 y el coeficiente de determinación ajustado es igual a 0.8994, recordemos que este último es corregido por la cantidad de variables y por eso es menor. En ambos casos, es relativamente alto, por lo que podemos concluir que los salarios están explicados en alrededor del 90% por el nivel de escolaridad.
  • El valor F es igual a 108.3, es decir, está muy lejano de uno, por lo tanto la hipótesis nula se rechaza, y así, concluimos que el estimador \hat{\beta}_2 es un elemento bastante significativo en nuestro modelo.
  • El p-value para el estimador \hat{\beta}_2 prácticamente cero, por lo tanto la hipótesis nula se rechaza, y así, concluimos que el estimador \hat{\beta}_2 es un elemento bastante significativo en nuestro modelo.

Bibliografía

Anuncio publicitario

R: La prueba t.

Una vez que hemos aprendido a calcular los intervalos de confianza podemos definir un entorno donde pudiera vivir nuestro parámetro poblacional, sin embargo, es necesario definir un elemento que nos permita usar este entorno para determinar si el planteamiento de nuestra investigación, se ajusta a la estimación que hemos hecho.

La idea básica de las pruebas de significancia es la de definir un estadístico de prueba y su distribución muestral según la hipótesis nula. La decisión de rechazar o no rechazar la hipótesis nula se toma con base en el valor del estadístico de prueba obtenido con los datos disponibles.

Anuncios

Prueba de significancia de los coeficientes de regresión: la prueba t

Con el supuesto de normalidad de u_i, los estimadores de MCO \hat{\beta}_1 y \hat{\beta}_2 son en sí mismos normalmente distribuidos con sus medias y varianzas correspondientes. Por consiguiente, la variable

t = \dfrac{\hat{\beta}_i - \beta_i}{ee(\hat{\beta}_i)} = \dfrac{(\hat{\beta}_i - \beta_i) \sqrt{\sum x_i^2}}{\hat{\sigma}}

Sigue la distribución t con n - 2 grados de libertad. Si el valor del verdadero \beta_i se especifica con la hipótesis nula, el valor t se calcula fácilmente a partir de la muestra disponible y, por consiguiente, sirve como estadístico de prueba.

Y como este estadístico de prueba sigue una distribución t, caben afirmaciones sobre los intervalos de confianza como la siguiente:

P \left[ -t_{\alpha/2} \leq \dfrac{\hat{\beta}_i - \beta^*_i}{ee(\hat{\beta}_i)} \leq t_{\alpha/2} \right] = 1-\alpha

donde \beta^*_i es el valor de \beta_i que se plantea en la hipótesis nula H_0 y -t_{\alpha/2} y t_{\alpha/2} son los valores de t (los valores críticos de t) obtenidos de la tabla t para un nivel de significancia (\alpha/2) y n-2 grados de libertad.

Reescribiendo la inecuación involucrada, tenemos que

P \left[ \beta^*_i - t_{\alpha/2} ee(\hat{\beta}_i) \leq  \hat{\beta}_i  \leq \beta^*_i + t_{\alpha/2} ee(\hat{\beta}_i) \right] = 1-\alpha

obteniendo así, el intervalo en el cual se encontrará \hat{\beta}_i con probabilidad 1-\alpha, dado \hat{\beta}_i = \beta^*_i.

Calculamos los valores críticos en R usando la siguiente sintaxis:

li.H0.betai <- betai - qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.betai
ls.H0.betai <- betai + qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.betai

En el lenguaje de pruebas de hipótesis, este intervalo de confianza a 100(1 -\alpha)\% se conoce como la región de no rechazo (de la hipótesis nula H_0), y la región que queda fuera del intervalo de confianza conoce como región de rechazo (de la hipótesis nula H_0) o región crítica.

Prueba de Hipótesis, estadístico t | totumat.com

Los límites de confianza dados por los puntos extremos del intervalo de confianza se llaman también valores críticos.

Ahora se aprecia la estrecha conexión entre los enfoques de intervalo de confianza y prueba de significancia para realizar pruebas de hipótesis, pues al compararlos, tenemos que:

En el enfoque de intervalo de confianza se trata de establecer un rango o intervalo que tenga una probabilidad determinada de contener al verdadero aunque desconocido \beta_i

P \left[ \hat{\beta}_i - t_{\alpha/2} ee(\hat{\beta}_i) \leq \beta_i \leq \hat{\beta}_i + t_{\alpha/2} ee(\hat{\beta}_i) \right] = 1-\alpha

En el enfoque de prueba de significancia se somete a hipótesis algún valor de \beta_i y se ve si el estimador \hat{\beta}_i calculado se encuentra dentro de los límites (de confianza) razonables alrededor del valor sometido a hipótesis.

P \left[ \beta^*_i - t_{\alpha/2} ee(\hat{\beta}_i) \leq \hat{\beta}_i  \leq \beta^*_i + t_{\alpha/2} ee(\hat{\beta}_i) \right] = 1-\alpha

Sin embargo, en la práctica, no hay necesidad de estimar este intervalo explícitamente. Se calcula el valor de t y se ve si cae entre los valores críticos t o fuera de ellos y calculamos el valor de t en R usando la siguiente sintaxis:

t.c <- (betai - H0.betai)/ee.betai
Prueba de Hipótesis, estadístico t | totumat.com

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Sabiendo que \hat{\beta}_2 = 0.7240, ee(\hat{\beta}_2) = 0.0700 y gl=11. Si consideramos \alpha=5\%, entonces t_{\alpha/2}=2.201.

Considerando la hipótesis nula H_0 : \beta_2 = \beta_2^* = 0.5 y la hipótesis alternativa H_1:\beta_2 \neq 0.5, calculamos los valores críticos en R usando la siguiente sintaxis:

H0.beta2 <- 0.5
li.H0.beta2 <- H0.beta2 - qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta2
ls.H0.beta2 <- H0.beta2 + qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta2

Una vez ejecutadas estas instrucciones, obtenemos que

P (0.3460 \leq \hat{\beta}_2 \leq 0.6540) = 1-\alpha

De forma gráfica, podemos expresar esta probabilidad así

Prueba de Hipótesis, estadístico t | totumat.com

Notamos entonces, que el valor \hat{\beta}_2 = 0.7240 está en la región de rechazo, por lo tanto, se rechaza la hipótesis nula H_0.

Veamos ahora, qué es lo que ocurre con el valor que hemos calculado de t. ¿Cae entre los valores críticos t o fuera de ellos? t = \frac{0.7240 - 0.5}{0.0700} = 3.2. Calculamos el valor de t en R usando la siguiente sintaxis:

H0.beta2 <- 0.5
t.c <- (beta2 - H0.beta2)/ee.beta2

En el siguiente gráfico, vemos con claridad que el valor se encuentra en la región crítica y la conclusión se mantiene; es decir, rechazamos H_0.

Prueba de Hipótesis, estadístico t | totumat.com

En su pantalla debería aparecer:

Prueba de Hipótesis, estadístico t | totumat.com

Notas:

Observe que si el \beta_i estimado es igual al \beta_i hipotético, el valor t será cero. Por otra parte, a la medida en que el valor de \beta_2 estimado se aleje del valor hipotético de \beta_2, el |t| será cada vez mayor. Por consiguiente, un valor grande de |t| nos permite rechazar la hipótesis nula con mayor confianza.

En la práctica, se plantea la hipótesis nula H_0 : \beta_i (con énfasis en beta_2) pues al rechazar esta hipótesis, podemos asegurar con cierto grado de confianza, que beta_2 \neq 0 y así, concluir que la variable que acompaña a beta_2 explica a la variable dependiente.


R: Los intervalos de confianza

Una vez que hemos calculado los estimadores de la Función de Regresión Muestral, es decir, \hat{\beta}_1 y \hat{\beta}_i sabiendo que estos cálculos están basados en una muestra, debemos ser cautelosos con las afirmaciones que derivan a partir de dichos estimadores, es por esto que debemos determinar una forma de medir qué tan confiables son estos cálculos.

También pudiera interesarte

Anuncios

¿Qué es un intervalo de confianza?

Habiendo definido el error estándar como una herramienta para medir qué tan precisos son nuestros estimadores, resulta intuitivo, definir un entorno en el que viven nuestros estimadores basado en el error estándar. Generalmente, esto se hace considerando intervalos centrados en el estimador de longitud igual a dos, cuatro y hasta seis veces el error estándar, esperando que este intervalo contenga el verdadero parámetro (de la Función de Regresión Poblacional) con un cierto grado de confianza.

Recordando que al contar únicamente con muestras, los verdaderos parámetros de la Función de Regresión Poblacional son desconocidos, consideremos particularmente, que queremos determinar qué tan cerca está el estimador \hat{\beta}_i del verdadero parámetro $\beta_i$, para esto se consideran dos números positivos \delta y \alpha (0 \leq \alpha \leq 1) de modo que la probabilidad de que el intervalo aleatorio (\hat{\beta}_i - \delta, \hat{\beta}_i + \delta) contenga al verdadero \beta_i sea igual a 1 - \alpha, es decir,

P(\hat{\beta}_i - \delta \leq \beta_i \leq \hat{\beta}_i + \delta) = 1 - \alpha

A partir de esta igualdad podemos identificar algunos elementos:

(\hat{\beta}_i - \delta, \hat{\beta}_i + \delta) es el intervalo de confianza y este intervalo pudiera no contener al verdadero valor.

Los extremos del intervalo de confianza se conocen como límites de confianza, donde (\hat{\beta}_i - \delta) es el límite de confianza inferior y (\hat{\beta}_i + \delta) es el límite de confianza superior.

1-\alpha es el coeficiente de confianza, en la práctica, 1 - \alpha suele expresarse en forma porcentual como 100(1 -\alpha)\%.

\alpha es el nivel de significancia, en la práctica, \alpha suele expresarse en forma porcentual como 100 \alpha.

El nivel de significancia también es conocido como la probabilidad de cometer un error tipo I. Recordando que

  • un error tipo I consiste en rechazar una hipótesis verdadera
  • un error tipo II consiste en no rechazar una hipótesis falsa.
En el primer panel se lee: Usted está embarazado.
En el segundo panel se lee: Usted no está embaraza.

Intervalos de confianza de los estimadores

Considerando el supuesto de que los residuos u_i siguen una distribución normal, podemos concluir que los estimadores de Mínimos Cuadrados Ordinarios \hat{\beta}_1 y \hat{\beta}_i son en sí mismos normalmente distribuidos con sus medias y varianzas correspondientes. Sabiendo esto, podemos definir una variable Z distribuida normalmente con media cero y varianza igual a uno, de la siguiente forma:

Z = \dfrac{\hat{\beta}_i - \beta_i}{ee(\hat{\beta}_i)} = \dfrac{(\hat{\beta}_i - \beta_i) \sqrt{\sum x_i^2}}{\sigma}

Así, se puede utilizar la distribución normal para hacer afirmaciones probabilísticas sobre \beta_i, siempre que se conozca la verdadera varianza poblacional \sigma^2.

Si se conoce \sigma^2, una propiedad importante de una variable normalmente distribuida con media \mu y varianza \sigma^2 es que el área bajo la curva normal entre \mu \pm \sigma es cercana a 68%, que entre \mu \pm 2\sigma es alrededor de 95%, y que entre los límites \mu \pm 3\sigma el área es cercana a 99.7%.

Distribución normal dos sigma | totumat.com
Distribución normal cuatro sigma | totumat.com
Distribución normal seis sigma | totumat.com

Pero pocas veces se conoce el verdadero valor de \sigma^2 y, en la práctica, está determinada por el estimador insesgado \sigma^2. Entonces, si en nuestra variable estandarizada Z, se reemplaza \sigma por \hat{\sigma}, tenemos que

t = \dfrac{\hat{\beta}_i - \beta_i}{ee(\hat{\beta}_i)} = \dfrac{(\hat{\beta}_i - \beta_i) \sqrt{\sum x_i^2}}{\hat{\sigma}}

Es posible demostrar que la variable t, así definida, sigue la distribución t con n-2 grados de libertad. Por consiguiente, en lugar de utilizar la distribución normal, se puede utilizar la distribución t para construir un intervalo de confianza para \beta_i de la siguiente forma:

P(-t_{\alpha/2} \leq t \leq t_{\alpha/2} ) = 1-\alpha

donde t_{\alpha/2} es el valor de la variable t obtenida de la distribución t para un nivel de significancia de \alpha/2 y n-2 grados de libertad; a menudo se denomina el valor crítico t a un nivel de significancia \alpha/2.

Considerando t=\dfrac{(\hat{\beta}_i - \beta_i) \sqrt{\sum x_i^2}}{\hat{\sigma}}, podemos considerar el siguiente intervalo de confianza.

P \left[ -t_{\alpha/2} \leq \dfrac{\hat{\beta}_i - \beta_i}{ee(\hat{\beta}_i)} \leq t_{\alpha/2} \right] = 1-\alpha

Intervalo de confianza para \hat{\beta}_2

Considerando la ecuación

P \left[ -t_{\alpha/2} \leq \dfrac{\hat{\beta}_2 - \beta_2}{ee(\hat{\beta}_2)} \leq t_{\alpha/2} \right] = 1-\alpha

Podemos manipular algebraicamente, para obtener que

P \left[ \hat{\beta}_2 - t_{\alpha/2} ee(\hat{\beta}_2) \leq \beta_2 \leq \hat{\beta}_2 + t_{\alpha/2} ee(\hat{\beta}_2) \right] = 1-\alpha

Esta ecuación proporciona un intervalo de confianza para \beta_2 de 100 (1 - \alpha)\%, que se escribe en forma más compacta como

\hat{\beta}_2 \pm t_{\alpha/2} ee(\hat{\beta}_2)

Calculamos los límites de confianza en R usando la siguiente sintaxis:

li.beta2 <- beta2 - qt(1-alpha/2, df=length(X)-2)*ee.beta2
ls.beta2 <- beta2 - qt(1-alpha/2, df=length(X)-2)*ee.beta2

Intervalo de confianza para \beta_1

Considerando la ecuación

P \left[ -t_{\alpha/2} \leq \dfrac{\hat{\beta}_1 - \beta_1}{ee(\hat{\beta}_1)} \leq t_{\alpha/2} \right] = 1-\alpha

Podemos manipular algebraicamente, para obtener que

P \left[ \hat{\beta}_1 - t_{\alpha/2} ee(\hat{\beta}_1) \leq \beta_1 \leq \hat{\beta}_1 + t_{\alpha/2} ee(\hat{\beta}_1) \right] = 1-\alpha

Esta ecuación proporciona un intervalo de confianza para \beta_1 de 100 (1 - \alpha)\%, que se escribe en forma más compacta como

\hat{\beta}_1 \pm t_{\alpha/2} ee(\hat{\beta}_1)

Calculamos los límites de confianza en R usando la siguiente sintaxis:

li.beta1 <- beta1 - qt(1-alpha/2, df=length(X)-2)*ee.beta1
ls.beta1 <- beta1 - qt(1-alpha/2, df=length(X)-2)*ee.beta1

Intervalo de confianza para \sigma^2

Considerando el supuesto de que los residuos u_i siguen una distribución normal, podemos concluir que la variable

\chi^2 = (n-2) \dfrac{\hat{\sigma}^2}{\sigma^2}

sigue la distribución \chi^2 con n-1 grados de libertad. Por lo tanto, con la distribución \chi^2 se establece el intervalo de confianza para \sigma^2

P(\chi^2_{1-\alpha/2} \leq \chi^2 \leq \chi^2_{\alpha/2}) = 1-\alpha

Donde \chi^2_{1-\alpha/2} y \chi^2_{\alpha/2} son dos valores de \chi^2 (los valores críticos \chi^2 ) obtenidos de la tabla chi cuadrado para n-2 grados de libertad de manera que ellos cortan 100{\alpha/2}\% de las áreas de las colas de la distribución \chi^2.

Distribución Chi-Cuadrado con nivel de significancia | totumat.com

Sustituyendo \chi^2 por (n-2) \dfrac{\hat{\sigma}^2}{\sigma^2} y operando algebraicamente en la inecuación, tenemos que

P \left[ (n-2) \dfrac{\hat{\sigma}^2}{\chi^2_{\alpha/2}} \leq \sigma^2 \leq (n-2) \dfrac{\hat{\sigma}^2}{\chi^2_{1-\alpha/2}} \right] = 1-\alpha

que da el intervalo de confianza a 100(1 - \alpha)\% para \sigma^2.

li.var <- (n-2)*sigma2.e/qchisq(alpha/2,df=length(X)-2)
ls.var <- (n-2)*sigma2.e/qchisq(1-alpha/2,df=length(X)-2)

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Una vez que hemos calculado el modelo lineal que define este conjunto de datos y en consecuencia, los parámetros estimados. Con un nivel de significancia de 5%, es decir, \alpha=0.05, podemos calcular los intervalos de confianza de ambos estimadores y además, el intervalo de confianza de la desviación estándar estimada, para esto, usamos la siguiente sintaxis:

# Nivel de Significancia
alpha <- 0.05

# Intervalo de Confianza de beta2
li.beta2 <- beta2 - qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta2
ls.beta2 <- beta2 + qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta2

# Intervalo de Confianza de beta1
li.beta1 <- beta1 - qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta1
ls.beta1 <- beta1 + qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta1

# Intervalo de Confianza de sigma2
li.sigma2 <- (length(escolaridad)-2)*sigma2.e/qchisq(alpha/2,df=length(escolaridad)-2,lower.tail=F)
ls.sigma2 <- (length(escolaridad)-2)*sigma2.e/qchisq(1-alpha/2,df=length(escolaridad)-2,lower.tail=F)

Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro \hat{\beta}_2 es igual a

( 0.5709492 \ ; \ 0.8772442 )

y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero \beta_2 es de 0.95,

Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro \hat{\beta}_1 es igual a

( -1.939487 \ ; \ 1.910582 )

y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero \beta_1 es de 0.95.

Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro \sigma^2 es igual a

( 0.4421892 \ ; \ 2.540212 )

y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero \sigma^2 es de 0.95.

En su pantalla debería aparecer:


R: Estimadores Mínimos Cuadrados Ordinarios (MCO)

El análisis de regresión sienta la base para los estudios econométricos y a su vez, estos se fundamentan formulando modelos lineales con dos variables: una independiente y otra dependiente; este tipo de modelos definen rectas, es decir, aquellos que se expresan de la siguiente forma:

Y = \beta_1 + \beta_2 X

También pudiera interesarte

Anuncios

Linealidad

Al mencionar la linealidad en una relación entre variables, siempre es importante especificar respecto a qué elemento de la relación, es dicha relación, lineal. Formalmente, diremos que una relación es lineal respecto a un elemento de la ecuación, si dicho elemento no está siendo multiplicada por sí mismo o si permanece inalterado por alguna función en la expresión, por ejemplo, la siguiente ecuación

Y = \beta_1^2 + \beta_2 \cdot \ln(X)

Es una ecuación lineal respecto respecto la variable Y y el parámetro \beta_2, debido a que estos dos elementos permanecen inalterados. Sin embargo, no es lineal respecto al parámetro \beta_1 pues este está multiplicado por sí mismo, tampoco es lineal respecto a la variable X pues esta está alterada por la función logaritmo neperiano.

La linealidad respecto a los parámetros representa una base en la que se fundamentan los Modelos Lineales que estudiaremos. Es por esto que, usualmente, el término regresión lineal hace referencia a la linealidad de los parámetros. Por lo tanto, puede o no ser lineal en las variables.

El Modelo de Regresión Lineal

Todo estudio de índole estadístico está sometido a un error de aproximación y la econometría no escapa de esta característica, de forma que, al efectuar un censo poblacional, se puede estimar un modelo definido por la Función de Regresión Poblacional (FRP), expresado de la siguiente manera:

Y_i = \beta_1 + \beta_2 X_i + u_i

Sin embargo, llevar a cabo un censo puede resultar costoso en todos los aspectos, es por esto que se recurre a muestras poblacionales, a partir de las cuales se puede estimar un modelo definido por la Función de Regresión Muestral (FRM), expresado de la siguiente manera:

\hat{Y}_i = \hat{\beta}_1 + \hat{\beta}_2 x_i + \hat{u}_i

Y si bien el objetivo principal del análisis de regresión es estimar la FRP con base en la FRM, siempre se debe tomar en cuenta que: debido a fluctuaciones muestrales, la estimación de la FRP basada en la FRM es, en el mejor de los casos, una aproximación.

Mínimos Cuadrados Ordinarios (MCO)

Entonces, los valores de \beta_1 y \beta_2 se pueden estimar a partir de una muestra, usando un modelo que cuente con el término de error \hat{u}_i más pequeño posible, sin embargo, no podemos permitir que estos errores se anulen.

El Método de los Mínimos Cuadrados Ordinarios (MCO) que consiste en considerar, de todos los modelos posibles, el modelo tal que la suma de los cuadrados de los residuos \hat{u}_i sea la más pequeña, es decir, tal que la siguiente suma sea la más pequeña:

\sum \hat{u}^2

Llevando a cabo los cálculos necesarios para que esto se cumpla, se determina que los valores que estiman a \beta_1 y \beta_2, es decir, los estimadores \hat{\beta}_1 y \hat{\beta}_2 se calculan de la siguiente forma:

El valor \beta_2 se conoce como la pendiente y su estimador es:

\hat{\beta}_2 = \dfrac{\sum x_i y_i}{\sum x_i^2}

El valor \beta_1 se conoce como el intercepto y su estimador es:

\hat{\beta}_1 = \overline{Y} - \hat{\beta}_2 \overline{X}

Conociendo estas dos expresiones, podemos hacer los cálculos correspondientes en R, pues calculando la media de las variables X y Y, usamos la siguiente sintaxis para calcular los estimadores

m.X <- mean(X)
m.Y <- mean(Y)
beta2 <- sum((X - m.X)*(Y - m.Y))/sum((X - m.X)^2)
beta1 <- m.Y - beta2*m.X

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Si queremos definir un modelo que describa el salario de una persona en función del nivel de estudio que esta persona tenga, empezamos por definir las variables salario y escolaridad, usando las siguientes instrucciones:

escolaridad <- c(6,7,8,9,10,11,12,13,14,15,16,17,18)
salario <- c(4.4567,5.77,5.9787,7.3317,7.3182,6.5844,7.8182,7.8351,11.0223,10.6738,10.8361,13.615,13.531)

Una vez definidas estas variables, podemos definir nuevas variables para almacenar la media de cada una de ellas:

m.escolaridad <- mean(escolaridad)
m.salario <- mean(salario)

Posteriormente, calculamos los estimadores:

beta2 <- sum( (escolaridad-m.escolaridad)*(salario-m.salario) )/sum( (escolaridad-m.escolaridad)^2 )
beta1 <- m.salario - beta2*m.escolaridad

Al ejecutar estas instrucciones definimos las variables y podemos ver los valores que cada una de ellas tienen, particularmente la de los estimadores que son las que nos interesan.

Modelo Lineal de Salario en función de Escolaridad | totumat.com

Mi recomendación es usar el símbolo de numeral «#» para hacer comentarios en el script y mantener orden en las instrucciones que escribimos o entender porqué las escribimos, les comparto como haría yo estas anotaciones.

Modelo Lineal de Salario en función de Escolaridad | totumat.com

Habiendo calculado los valores de los estimadores, concluimos que el modelo lineal determinado por el método de los Mínimos Cuadrados Ordinarios, que estima el comportamiento de los valores expuestos en la Tabla 3.2 es el siguiente:

Salario = -0.0144 + 0.7240 \cdot Escolaridad

Anuncios

La instrucción lm

También podemos recurrir a la instrucción lm para definir un modelo lineal, de forma que si queremos definir a la variable Y en función de la variable X, entonces usamos la siguiente sintaxis:

lm(Y ~ X)

Note que se ha usado la virguilla (~) para definir la relación entre las dos variables. Entonces, continuando con nuestro ejemplo, podemos definir el modelo lineal que describe el Salario en función de la Escolaridad usando la siguiente sintaxis:

lm(salario ~ escolaridad)

Al ejecutar esta instrucción, en la consola deberá aparecer lo siguiente:

> lm(salario ~ escolaridad)
Call:
lm(formula = salario ~ escolaridad)
Coefficients:
(Intercept)  escolaridad  
   -0.01445      0.72410  

En su pantalla debería aparecer:

Modelo Lineal de Salario en función de Escolaridad | totumat.com