R: Estimadores Mínimos Cuadrados Ordinarios (MCO)

El análisis de regresión sienta la base para los estudios econométricos y a su vez, estos se fundamentan formulando modelos lineales con dos variables: una independiente y otra dependiente; este tipo de modelos definen rectas, es decir, aquellos que se expresan de la siguiente forma:

Y = \beta_1 + \beta_2 X

También pudiera interesarte

Anuncios

Linealidad

Al mencionar la linealidad en una relación entre variables, siempre es importante especificar respecto a qué elemento de la relación, es dicha relación, lineal. Formalmente, diremos que una relación es lineal respecto a un elemento de la ecuación, si dicho elemento no está siendo multiplicada por sí mismo o si permanece inalterado por alguna función en la expresión, por ejemplo, la siguiente ecuación

Y = \beta_1^2 + \beta_2 \cdot \ln(X)

Es una ecuación lineal respecto respecto la variable Y y el parámetro \beta_2, debido a que estos dos elementos permanecen inalterados. Sin embargo, no es lineal respecto al parámetro \beta_1 pues este está multiplicado por sí mismo, tampoco es lineal respecto a la variable X pues esta está alterada por la función logaritmo neperiano.

La linealidad respecto a los parámetros representa una base en la que se fundamentan los Modelos Lineales que estudiaremos. Es por esto que, usualmente, el término regresión lineal hace referencia a la linealidad de los parámetros. Por lo tanto, puede o no ser lineal en las variables.

El Modelo de Regresión Lineal

Todo estudio de índole estadístico está sometido a un error de aproximación y la econometría no escapa de esta característica, de forma que, al efectuar un censo poblacional, se puede estimar un modelo definido por la Función de Regresión Poblacional (FRP), expresado de la siguiente manera:

Y_i = \beta_1 + \beta_2 X_i + u_i

Sin embargo, llevar a cabo un censo puede resultar costoso en todos los aspectos, es por esto que se recurre a muestras poblacionales, a partir de las cuales se puede estimar un modelo definido por la Función de Regresión Muestral (FRM), expresado de la siguiente manera:

\hat{Y}_i = \hat{\beta}_1 + \hat{\beta}_2 x_i + \hat{u}_i

Y si bien el objetivo principal del análisis de regresión es estimar la FRP con base en la FRM, siempre se debe tomar en cuenta que: debido a fluctuaciones muestrales, la estimación de la FRP basada en la FRM es, en el mejor de los casos, una aproximación.

Mínimos Cuadrados Ordinarios (MCO)

Entonces, los valores de \beta_1 y \beta_2 se pueden estimar a partir de una muestra, usando un modelo que cuente con el término de error \hat{u}_i más pequeño posible, sin embargo, no podemos permitir que estos errores se anulen.

El Método de los Mínimos Cuadrados Ordinarios (MCO) que consiste en considerar, de todos los modelos posibles, el modelo tal que la suma de los cuadrados de los residuos \hat{u}_i sea la más pequeña, es decir, tal que la siguiente suma sea la más pequeña:

\sum \hat{u}^2

Llevando a cabo los cálculos necesarios para que esto se cumpla, se determina que los valores que estiman a \beta_1 y \beta_2, es decir, los estimadores \hat{\beta}_1 y \hat{\beta}_2 se calculan de la siguiente forma:

El valor \beta_2 se conoce como la pendiente y su estimador es:

\hat{\beta}_2 = \dfrac{\sum x_i y_i}{\sum x_i^2}

El valor \beta_1 se conoce como el intercepto y su estimador es:

\hat{\beta}_1 = \overline{Y} - \hat{\beta}_2 \overline{X}

Conociendo estas dos expresiones, podemos hacer los cálculos correspondientes en R, pues calculando la media de las variables X y Y, usamos la siguiente sintaxis para calcular los estimadores

m.X <- mean(X)
m.Y <- mean(Y)
beta2 <- sum((X - m.X)*(Y - m.Y))/sum((X - m.X)^2)
beta1 <- m.Y - beta2*m.X

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Si queremos definir un modelo que describa el salario de una persona en función del nivel de estudio que esta persona tenga, empezamos por definir las variables salario y escolaridad, usando las siguientes instrucciones:

escolaridad <- c(6,7,8,9,10,11,12,13,14,15,16,17,18)
salario <- c(4.4567,5.77,5.9787,7.3317,7.3182,6.5844,7.8182,7.8351,11.0223,10.6738,10.8361,13.615,13.531)

Una vez definidas estas variables, podemos definir nuevas variables para almacenar la media de cada una de ellas:

m.escolaridad <- mean(escolaridad)
m.salario <- mean(salario)

Posteriormente, calculamos los estimadores:

beta2 <- sum( (escolaridad-m.escolaridad)*(salario-m.salario) )/sum( (escolaridad-m.escolaridad)^2 )
beta1 <- m.salario - beta2*m.escolaridad

Al ejecutar estas instrucciones definimos las variables y podemos ver los valores que cada una de ellas tienen, particularmente la de los estimadores que son las que nos interesan.

Modelo Lineal de Salario en función de Escolaridad | totumat.com

Mi recomendación es usar el símbolo de numeral «#» para hacer comentarios en el script y mantener orden en las instrucciones que escribimos o entender porqué las escribimos, les comparto como haría yo estas anotaciones.

Modelo Lineal de Salario en función de Escolaridad | totumat.com

Habiendo calculado los valores de los estimadores, concluimos que el modelo lineal determinado por el método de los Mínimos Cuadrados Ordinarios, que estima el comportamiento de los valores expuestos en la Tabla 3.2 es el siguiente:

Salario = -0.0144 + 0.7240 \cdot Escolaridad

Anuncios

La instrucción lm

También podemos recurrir a la instrucción lm para definir un modelo lineal, de forma que si queremos definir a la variable Y en función de la variable X, entonces usamos la siguiente sintaxis:

lm(Y ~ X)

Note que se ha usado la virguilla (~) para definir la relación entre las dos variables. Entonces, continuando con nuestro ejemplo, podemos definir el modelo lineal que describe el Salario en función de la Escolaridad usando la siguiente sintaxis:

lm(salario ~ escolaridad)

Al ejecutar esta instrucción, en la consola deberá aparecer lo siguiente:

> lm(salario ~ escolaridad)
Call:
lm(formula = salario ~ escolaridad)
Coefficients:
(Intercept)  escolaridad  
   -0.01445      0.72410  

En su pantalla debería aparecer:

Modelo Lineal de Salario en función de Escolaridad | totumat.com

Anuncio publicitario

5 comentarios en “R: Estimadores Mínimos Cuadrados Ordinarios (MCO)

¿Tienes alguna duda? Compártela en los comentarios.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.