R: Estimadores Mínimos Cuadrados Ordinarios (MCO)

El análisis de regresión sienta la base para los estudios econométricos y a su vez, estos se fundamentan formulando modelos lineales con dos variables: una independiente y otra dependiente; este tipo de modelos definen rectas, es decir, aquellos que se expresan de la siguiente forma:

$Y = \beta_1 + \beta_2 X$

También pudiera interesarte

Linealidad

Al mencionar la linealidad en una relación entre variables, siempre es importante especificar respecto a qué elemento de la relación, es dicha relación, lineal. Formalmente, diremos que una relación es lineal respecto a un elemento de la ecuación, si dicho elemento no está siendo multiplicada por sí mismo o si permanece inalterado por alguna función en la expresión, por ejemplo, la siguiente ecuación

$Y = \beta_1^2 + \beta_2 \cdot \ln(X)$

Es una ecuación lineal respecto respecto la variable $Y$ y el parámetro $\beta_2$ , debido a que estos dos elementos permanecen inalterados. Sin embargo, no es lineal respecto al parámetro $\beta_1$ pues este está multiplicado por sí mismo, tampoco es lineal respecto a la variable $X$ pues esta está alterada por la función logaritmo neperiano.

La linealidad respecto a los parámetros representa una base en la que se fundamentan los Modelos Lineales que estudiaremos. Es por esto que, usualmente, el término regresión lineal hace referencia a la linealidad de los parámetros. Por lo tanto, puede o no ser lineal en las variables.

El Modelo de Regresión Lineal

Todo estudio de índole estadístico está sometido a un error de aproximación y la econometría no escapa de esta característica, de forma que, al efectuar un censo poblacional, se puede estimar un modelo definido por la Función de Regresión Poblacional (FRP), expresado de la siguiente manera:

$Y_i = \beta_1 + \beta_2 X_i + u_i$

Sin embargo, llevar a cabo un censo puede resultar costoso en todos los aspectos, es por esto que se recurre a muestras poblacionales, a partir de las cuales se puede estimar un modelo definido por la Función de Regresión Muestral (FRM), expresado de la siguiente manera:

$\hat{Y}_i = \hat{\beta}_1 + \hat{\beta}_2 x_i + \hat{u}_i$

Y si bien el objetivo principal del análisis de regresión es estimar la FRP con base en la FRM, siempre se debe tomar en cuenta que: debido a fluctuaciones muestrales, la estimación de la FRP basada en la FRM es, en el mejor de los casos, una aproximación.

Mínimos Cuadrados Ordinarios (MCO)

Entonces, los valores de $\beta_1$ y $\beta_2$ se pueden estimar a partir de una muestra, usando un modelo que cuente con el término de error $\hat{u}_i$ más pequeño posible, sin embargo, no podemos permitir que estos errores se anulen.

El Método de los Mínimos Cuadrados Ordinarios (MCO) que consiste en considerar, de todos los modelos posibles, el modelo tal que la suma de los cuadrados de los residuos $\hat{u}_i$ sea la más pequeña, es decir, tal que la siguiente suma sea la más pequeña:

$\sum \hat{u}^2$

Llevando a cabo los cálculos necesarios para que esto se cumpla, se determina que los valores que estiman a $\beta_1$ y $\beta_2$ , es decir, los estimadores $\hat{\beta}_1$ y $\hat{\beta}_2$ se calculan de la siguiente forma:

El valor $\beta_2$ se conoce como la pendiente y su estimador es:

$\hat{\beta}_2 = \dfrac{\sum x_i y_i}{\sum x_i^2}$

El valor $\beta_1$ se conoce como el intercepto y su estimador es:

$\hat{\beta}_1 = \overline{Y} - \hat{\beta}_2 \overline{X}$

Conociendo estas dos expresiones, podemos hacer los cálculos correspondientes en R, pues calculando la media de las variables $X$ y $Y$ , usamos la siguiente sintaxis para calcular los estimadores

m.X <- mean(X)
m.Y <- mean(Y)
beta2 <- sum((X - m.X)*(Y - m.Y))/sum((X - m.X)^2)
beta1 <- m.Y - beta2*m.X

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

Observación	Salario	Escolaridad
1	4.4567	6
2	5.77	7
3	5.9787	8
4	7.3317	9
5	7.3182	10
6	6.5844	11
7	7.8182	12
8	7.8351	13
9	11.0223	14
10	10.6738	15
11	10.8361	16
12	13.615	17
13	13.531	18

Tabla 3.2

Si queremos definir un modelo que describa el salario de una persona en función del nivel de estudio que esta persona tenga, empezamos por definir las variables salario y escolaridad, usando las siguientes instrucciones:

escolaridad <- c(6,7,8,9,10,11,12,13,14,15,16,17,18)
salario <- c(4.4567,5.77,5.9787,7.3317,7.3182,6.5844,7.8182,7.8351,11.0223,10.6738,10.8361,13.615,13.531)

Una vez definidas estas variables, podemos definir nuevas variables para almacenar la media de cada una de ellas:

m.escolaridad <- mean(escolaridad)
m.salario <- mean(salario)

Posteriormente, calculamos los estimadores:

beta2 <- sum( (escolaridad-m.escolaridad)*(salario-m.salario) )/sum( (escolaridad-m.escolaridad)^2 )
beta1 <- m.salario - beta2*m.escolaridad

Al ejecutar estas instrucciones definimos las variables y podemos ver los valores que cada una de ellas tienen, particularmente la de los estimadores que son las que nos interesan.

Modelo Lineal de Salario en función de Escolaridad | totumat.com

Mi recomendación es usar el símbolo de numeral «#» para hacer comentarios en el script y mantener orden en las instrucciones que escribimos o entender porqué las escribimos, les comparto como haría yo estas anotaciones.

Habiendo calculado los valores de los estimadores, concluimos que el modelo lineal determinado por el método de los Mínimos Cuadrados Ordinarios, que estima el comportamiento de los valores expuestos en la Tabla 3.2 es el siguiente:

$Salario = -0.0144 + 0.7240 \cdot Escolaridad$

Anuncios

La instrucción `lm`

También podemos recurrir a la instrucción lm para definir un modelo lineal, de forma que si queremos definir a la variable $Y$ en función de la variable $X$ , entonces usamos la siguiente sintaxis:

lm(Y ~ X)

Note que se ha usado la virguilla (~) para definir la relación entre las dos variables. Entonces, continuando con nuestro ejemplo, podemos definir el modelo lineal que describe el Salario en función de la Escolaridad usando la siguiente sintaxis:

lm(salario ~ escolaridad)

Al ejecutar esta instrucción, en la consola deberá aparecer lo siguiente:

> lm(salario ~ escolaridad)
Call:
lm(formula = salario ~ escolaridad)
Coefficients:
(Intercept)  escolaridad  
   -0.01445      0.72410

En su pantalla debería aparecer:

5 comentarios en “R: Estimadores Mínimos Cuadrados Ordinarios (MCO)”

R para introducir a la Econometría: La instrucción lm() – totumat dice:

30.05.2021 a las 11:29 pm

[…] R para introducir a la Econometría: Estimadores MCO […]

Me gustaMe gusta

Responder

¿Tienes alguna duda? Compártela en los comentarios. Cancelar la respuesta

Este sitio utiliza Akismet para reducir el spam. Conoce cómo se procesan los datos de tus comentarios.