R: Los intervalos de confianza

Una vez que hemos calculado los estimadores de la Función de Regresión Muestral, es decir, \hat{\beta}_1 y \hat{\beta}_i sabiendo que estos cálculos están basados en una muestra, debemos ser cautelosos con las afirmaciones que derivan a partir de dichos estimadores, es por esto que debemos determinar una forma de medir qué tan confiables son estos cálculos.

También pudiera interesarte

Anuncios

¿Qué es un intervalo de confianza?

Habiendo definido el error estándar como una herramienta para medir qué tan precisos son nuestros estimadores, resulta intuitivo, definir un entorno en el que viven nuestros estimadores basado en el error estándar. Generalmente, esto se hace considerando intervalos centrados en el estimador de longitud igual a dos, cuatro y hasta seis veces el error estándar, esperando que este intervalo contenga el verdadero parámetro (de la Función de Regresión Poblacional) con un cierto grado de confianza.

Recordando que al contar únicamente con muestras, los verdaderos parámetros de la Función de Regresión Poblacional son desconocidos, consideremos particularmente, que queremos determinar qué tan cerca está el estimador \hat{\beta}_i del verdadero parámetro $\beta_i$, para esto se consideran dos números positivos \delta y \alpha (0 \leq \alpha \leq 1) de modo que la probabilidad de que el intervalo aleatorio (\hat{\beta}_i - \delta, \hat{\beta}_i + \delta) contenga al verdadero \beta_i sea igual a 1 - \alpha, es decir,

P(\hat{\beta}_i - \delta \leq \beta_i \leq \hat{\beta}_i + \delta) = 1 - \alpha

A partir de esta igualdad podemos identificar algunos elementos:

(\hat{\beta}_i - \delta, \hat{\beta}_i + \delta) es el intervalo de confianza y este intervalo pudiera no contener al verdadero valor.

Los extremos del intervalo de confianza se conocen como límites de confianza, donde (\hat{\beta}_i - \delta) es el límite de confianza inferior y (\hat{\beta}_i + \delta) es el límite de confianza superior.

1-\alpha es el coeficiente de confianza, en la práctica, 1 - \alpha suele expresarse en forma porcentual como 100(1 -\alpha)\%.

\alpha es el nivel de significancia, en la práctica, \alpha suele expresarse en forma porcentual como 100 \alpha.

El nivel de significancia también es conocido como la probabilidad de cometer un error tipo I. Recordando que

  • un error tipo I consiste en rechazar una hipótesis verdadera
  • un error tipo II consiste en no rechazar una hipótesis falsa.
En el primer panel se lee: Usted está embarazado.
En el segundo panel se lee: Usted no está embaraza.

Intervalos de confianza de los estimadores

Considerando el supuesto de que los residuos u_i siguen una distribución normal, podemos concluir que los estimadores de Mínimos Cuadrados Ordinarios \hat{\beta}_1 y \hat{\beta}_i son en sí mismos normalmente distribuidos con sus medias y varianzas correspondientes. Sabiendo esto, podemos definir una variable Z distribuida normalmente con media cero y varianza igual a uno, de la siguiente forma:

Z = \dfrac{\hat{\beta}_i - \beta_i}{ee(\hat{\beta}_i)} = \dfrac{(\hat{\beta}_i - \beta_i) \sqrt{\sum x_i^2}}{\sigma}

Así, se puede utilizar la distribución normal para hacer afirmaciones probabilísticas sobre \beta_i, siempre que se conozca la verdadera varianza poblacional \sigma^2.

Si se conoce \sigma^2, una propiedad importante de una variable normalmente distribuida con media \mu y varianza \sigma^2 es que el área bajo la curva normal entre \mu \pm \sigma es cercana a 68%, que entre \mu \pm 2\sigma es alrededor de 95%, y que entre los límites \mu \pm 3\sigma el área es cercana a 99.7%.

Distribución normal dos sigma | totumat.com
Distribución normal cuatro sigma | totumat.com
Distribución normal seis sigma | totumat.com

Pero pocas veces se conoce el verdadero valor de \sigma^2 y, en la práctica, está determinada por el estimador insesgado \sigma^2. Entonces, si en nuestra variable estandarizada Z, se reemplaza \sigma por \hat{\sigma}, tenemos que

t = \dfrac{\hat{\beta}_i - \beta_i}{ee(\hat{\beta}_i)} = \dfrac{(\hat{\beta}_i - \beta_i) \sqrt{\sum x_i^2}}{\hat{\sigma}}

Es posible demostrar que la variable t, así definida, sigue la distribución t con n-2 grados de libertad. Por consiguiente, en lugar de utilizar la distribución normal, se puede utilizar la distribución t para construir un intervalo de confianza para \beta_i de la siguiente forma:

P(-t_{\alpha/2} \leq t \leq t_{\alpha/2} ) = 1-\alpha

donde t_{\alpha/2} es el valor de la variable t obtenida de la distribución t para un nivel de significancia de \alpha/2 y n-2 grados de libertad; a menudo se denomina el valor crítico t a un nivel de significancia \alpha/2.

Considerando t=\dfrac{(\hat{\beta}_i - \beta_i) \sqrt{\sum x_i^2}}{\hat{\sigma}}, podemos considerar el siguiente intervalo de confianza.

P \left[ -t_{\alpha/2} \leq \dfrac{\hat{\beta}_i - \beta_i}{ee(\hat{\beta}_i)} \leq t_{\alpha/2} \right] = 1-\alpha

Intervalo de confianza para \hat{\beta}_2

Considerando la ecuación

P \left[ -t_{\alpha/2} \leq \dfrac{\hat{\beta}_2 - \beta_2}{ee(\hat{\beta}_2)} \leq t_{\alpha/2} \right] = 1-\alpha

Podemos manipular algebraicamente, para obtener que

P \left[ \hat{\beta}_2 - t_{\alpha/2} ee(\hat{\beta}_2) \leq \beta_2 \leq \hat{\beta}_2 + t_{\alpha/2} ee(\hat{\beta}_2) \right] = 1-\alpha

Esta ecuación proporciona un intervalo de confianza para \beta_2 de 100 (1 - \alpha)\%, que se escribe en forma más compacta como

\hat{\beta}_2 \pm t_{\alpha/2} ee(\hat{\beta}_2)

Calculamos los límites de confianza en R usando la siguiente sintaxis:

li.beta2 <- beta2 - qt(1-alpha/2, df=length(X)-2)*ee.beta2
ls.beta2 <- beta2 - qt(1-alpha/2, df=length(X)-2)*ee.beta2

Intervalo de confianza para \beta_1

Considerando la ecuación

P \left[ -t_{\alpha/2} \leq \dfrac{\hat{\beta}_1 - \beta_1}{ee(\hat{\beta}_1)} \leq t_{\alpha/2} \right] = 1-\alpha

Podemos manipular algebraicamente, para obtener que

P \left[ \hat{\beta}_1 - t_{\alpha/2} ee(\hat{\beta}_1) \leq \beta_1 \leq \hat{\beta}_1 + t_{\alpha/2} ee(\hat{\beta}_1) \right] = 1-\alpha

Esta ecuación proporciona un intervalo de confianza para \beta_1 de 100 (1 - \alpha)\%, que se escribe en forma más compacta como

\hat{\beta}_1 \pm t_{\alpha/2} ee(\hat{\beta}_1)

Calculamos los límites de confianza en R usando la siguiente sintaxis:

li.beta1 <- beta1 - qt(1-alpha/2, df=length(X)-2)*ee.beta1
ls.beta1 <- beta1 - qt(1-alpha/2, df=length(X)-2)*ee.beta1

Intervalo de confianza para \sigma^2

Considerando el supuesto de que los residuos u_i siguen una distribución normal, podemos concluir que la variable

\chi^2 = (n-2) \dfrac{\hat{\sigma}^2}{\sigma^2}

sigue la distribución \chi^2 con n-1 grados de libertad. Por lo tanto, con la distribución \chi^2 se establece el intervalo de confianza para \sigma^2

P(\chi^2_{1-\alpha/2} \leq \chi^2 \leq \chi^2_{\alpha/2}) = 1-\alpha

Donde \chi^2_{1-\alpha/2} y \chi^2_{\alpha/2} son dos valores de \chi^2 (los valores críticos \chi^2 ) obtenidos de la tabla chi cuadrado para n-2 grados de libertad de manera que ellos cortan 100{\alpha/2}\% de las áreas de las colas de la distribución \chi^2.

Distribución Chi-Cuadrado con nivel de significancia | totumat.com

Sustituyendo \chi^2 por (n-2) \dfrac{\hat{\sigma}^2}{\sigma^2} y operando algebraicamente en la inecuación, tenemos que

P \left[ (n-2) \dfrac{\hat{\sigma}^2}{\chi^2_{\alpha/2}} \leq \sigma^2 \leq (n-2) \dfrac{\hat{\sigma}^2}{\chi^2_{1-\alpha/2}} \right] = 1-\alpha

que da el intervalo de confianza a 100(1 - \alpha)\% para \sigma^2.

li.var <- (n-2)*sigma2.e/qchisq(alpha/2,df=length(X)-2)
ls.var <- (n-2)*sigma2.e/qchisq(1-alpha/2,df=length(X)-2)

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Una vez que hemos calculado el modelo lineal que define este conjunto de datos y en consecuencia, los parámetros estimados. Con un nivel de significancia de 5%, es decir, \alpha=0.05, podemos calcular los intervalos de confianza de ambos estimadores y además, el intervalo de confianza de la desviación estándar estimada, para esto, usamos la siguiente sintaxis:

# Nivel de Significancia
alpha <- 0.05

# Intervalo de Confianza de beta2
li.beta2 <- beta2 - qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta2
ls.beta2 <- beta2 + qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta2

# Intervalo de Confianza de beta1
li.beta1 <- beta1 - qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta1
ls.beta1 <- beta1 + qt(alpha/2, df=length(escolaridad)-2,lower.tail=F)*ee.beta1

# Intervalo de Confianza de sigma2
li.sigma2 <- (length(escolaridad)-2)*sigma2.e/qchisq(alpha/2,df=length(escolaridad)-2,lower.tail=F)
ls.sigma2 <- (length(escolaridad)-2)*sigma2.e/qchisq(1-alpha/2,df=length(escolaridad)-2,lower.tail=F)

Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro \hat{\beta}_2 es igual a

( 0.5709492 \ ; \ 0.8772442 )

y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero \beta_2 es de 0.95,

Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro \hat{\beta}_1 es igual a

( -1.939487 \ ; \ 1.910582 )

y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero \beta_1 es de 0.95.

Al ejecutar estas instrucciones obtenemos que el intervalo de confianza del parámetro \sigma^2 es igual a

( 0.4421892 \ ; \ 2.540212 )

y por lo tanto, concluimos que la probabilidad de que el intervalo (aleatorio) que allí aparece incluya al verdadero \sigma^2 es de 0.95.

En su pantalla debería aparecer:


Anuncio publicitario
Varianza y Error estándar

R: El error estándar

El Método de los Mínimos Cuadrados Ordinarios (MCO) nos provee una forma estimar los parámetros \hat{\beta}_2 y \hat{\beta}_1, sin embargo, al estar estos valores condicionados a la muestra que se tome, es probable que entre una muestra y otra, estos valores presenten variaciones. Entonces, surge la pregunta: ¿de qué forma podemos garantizar precisión en las estimaciones? O al menos, ¿podemos medir la imprecisión de estas?

También pudiera interesarte

Anuncios

La varianza muestral y el error estándar

La teoría estadística provee una forma de medir la precisión de un valor estimado, esto es, el error estándar (ee) que está definido como la desviación estándar de la distribución muestral del estimador. Es importante recalcar que al hablar sólo de desviación estándar, hacemos referencia a la población, en cambio, al hablar del error estándar, hacemos referencia a la muestra de dicha población.

Considerando la varianza muestral, que mide la variabilidad de los datos respecto a su media; podemos calcular el error estándar al tomar la raíz cuadrada de esta. Entonces, si \sigma es la desviación estándar:

Calculamos la varianza y el error estándar del parámetro \hat{\beta}_2 usando las siguientes fórmulas respectivamente,

var(\hat{\beta}_2) = \dfrac{\sigma^2}{\sum x_i^2}

ee(\hat{\beta}_2) = \dfrac{\sigma}{ \sqrt{\sum x_i^2} }

Podemos calcular la varianza y el error estándar del parámetro \hat{\beta}_2 en R usando la siguiente sintaxis:

var.beta2 <- sigma2.e/sum( (Yd-m.Yd)^2 )
ee.beta2 <- sqrt(v.beta2)

Por otra parte calculamos la varianza y el error estándar del parámetro \hat{\beta}_1 usando las siguientes fórmulas respectivamente,

var(\hat{\beta}_1) = \dfrac{ \sum X_i^2 }{n \sum x_i^2} \cdot \sigma^2

ee(\hat{\beta}_1) = \sqrt{ \dfrac{ \sum X_i^2 }{n \sum x_i^2} } \cdot \sigma

Podemos calcular la varianza y el error estándar del parámetro \hat{\beta}_1 en R usando la siguiente sintaxis:

var.beta1 <- sigma2.e*sum( Yd^2 )/(length(Yd)*sum( (Yd-m.Yd)^2 ))
ee.beta1 <- sqrt(v.beta1)

La desviación estándar estimada y el error estándar de estimación

Si bien contamos con los datos para calcular parte de estas expresiones, aún desconocemos el valor de \sigma^2, pues este valor se obtiene a partir de la población pero sólo contamos con una muestra, afortunadamente, podemos definir una fórmula que nos estima a través de del Método de Mínimos Cuadrados Ordinarios a la verdadera pero desconocida \sigma^2, esta fórmula es

\hat{\sigma}^2 = \dfrac{\sum \hat{u}_i^2}{n-2}

Podemos calcular la desviación estándar estimada en R usando la siguiente sintaxis:

sigma2.e <- sum(res^2)/(lenght(X)-2)

Vale la pena destacar que la raíz cuadrada de \hat{\sigma}^2 se conoce como el error estándar de estimación o el error estándar de la regresión (eee). No es más que la desviación estándar de los valores Y alrededor de la línea de regresión estimada, la cual suele servir como medida para resumir la bondad del ajuste de dicha línea. Se calcula de la siguiente manera

\hat{\sigma} = \sqrt{\dfrac{\sum \hat{u}_i^2}{n-2}}

Podemos calcular este valor en R usando la siguiente sintaxis:

ee.e <- sqrt(sigma2.e)

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Una vez que hemos calculado el modelo lineal que define este conjunto de datos, podemos determinar el error estándar de los parámetros estimados, pero primero debemos estimar la desviación estándar usando la siguiente sintaxis:

sigma2.e <- sum( (residuos)^2 )/(length(salario)-2)

Podemos calcular la varianza y el error estándar del parámetro \hat{\beta}_2 en R usando la siguiente sintaxis:

var.beta2 <- sigma2.e/sum( (escolaridad-m.escolaridad)^2 )
ee.beta2 <- sqrt(var.beta2)

Al ejecutar estas instrucciones obtenemos error estándar del parámetro \hat{\beta}_2, que en este caso es igual a 0.06958134.


Podemos calcular la varianza y el error estándar del parámetro \hat{\beta}_1 en R usando la siguiente sintaxis:

var.beta1 <- sigma2.e*sum( escolaridad^2 )/(length(escolaridad)*sum( (escolaridad-m.escolaridad)^2 ))
ee.beta1 <- sqrt(var.beta1)

Al ejecutar estas instrucciones obtenemos error estándar del parámetro \hat{\beta}_1, que en este caso es igual a 0.8746239.

En su pantalla debería aparecer:

Varianza y Error Estándar de los parámetros en R. | totumat.com