R: El coeficiente de determinación r²

Una vez que hemos calculado la función de regresión muestral como un modelo lineal a partir de un conjunto de datos, podemos notar en su gráfica que las observaciones no necesariamente caen sobre la línea que describe dicha función y aunque esta sería situación ideal (pues así podemos describir con precisión todo el conjunto de datos usando una función), esto no ocurre en la realidad.

También pudiera interesarte

La bondad de ajuste

Considerando el siguiente gráfico, si todas las observaciones cayeran en la línea de regresión, obtendríamos lo que se conoce como un ajuste perfecto, pero rara vez se presenta este caso. Por lo general los valores de $\hat{u}_i$ pueden ser positivos o negativos, gráficamente, podemos decir que algunas observaciones estarán por encima de la línea de regresión y otras por debajo.

Diagrama de Dispersión y Línea de Regresión | totumat.com

Aunque se tiene la esperanza de que los residuos alrededor de la línea de regresión sean lo más pequeños posibles, el coeficiente de determinación $r^2$ (caso de dos variables) o $R^2$ (regresión múltiple) es una medida comprendida que dice que tan bien se ajusta la línea de regresión muestral a los datos.

Antes de mostrar cómo calcular $r^2$ , consideremos Diagramas de Venn para entender qué representa el valor de $r^2$ , de forma que: el círculo $Y$ , representa la variación en la variable dependiente $Y$ ; el círculo $X$ , la variación en la variable explicativa $X$ .

Si estos dos círculos no se intersectan, entonces la variación en $Y$ no es explicada por la variación en $X$ . El valor de $r^2$ que representa esta situación, es $r^2=0$

El coeficiente de determinación r² | totumat.com

La intersección de los dos círculos (el área sombreada) indica la medida en la cual la variación en $Y$ se explica por la variación en $X$ .

Entre mayor sea el área de la intersección, mayor será la variación en $Y$ que se explica por la variación de $X$ . $r^2$ es tan sólo una medida numérica de esta intersección y generalmente es un valor entre 0 y 1.

Si estos dos círculos se intersectan en su totalidad, es decir, son iguales, entonces la variación en $Y$ está explicada en su totalidad por la variación de la variable $X$ . El valor de $r^2$ que representa esta situación, es $r^2=1$

Para calcular $r^2$ , partimos del hecho que $Y_i = \hat{Y}_i + \hat{u}_i$ , que expresado en forma de desviación, es decir, como la diferencia de cada observación con la media,

$y_i = \hat{y}_i + \hat{u}_i$

Al elevar al cuadrado esta última ecuación en ambos lados y sumar sobre la muestra, obtenemos

$\sum y_i^2$

$= \sum \hat{y}_i^2 + \sum \hat{u}_i^2 + 2\sum \hat{y}_i \hat{u}_i$

$= \sum \hat{y}_i^2 + \sum \hat{u}_i^2$

$= \hat{\beta}_2^2 \sum \hat{x}_i^2 + \sum \hat{u}_i^2$

Esa última igualdad se debe a que $\sum \hat{y}_i \hat{u}_i = 0$ y $\hat{y}_i = \hat{\beta}_2 \hat{x}_i$ .

Las diversas sumas de cuadrados en esta ecuación se describen de la siguiente manera:

$\sum y_i = \sum (Y_i - \overline{Y})^2$ es la variación total de los valores reales de Y respecto de su media muestral, que puede denominarse la suma de cuadrados total (SCT).
$\sum \hat{y}_i = \sum (\hat{y}_i - \overline{Y})^2 = \hat{\beta}_2^2 \sum \hat{x}_i^2$ es la variación de los valores de Y estimados alrededor de su media, que apropiadamente puede llamarse la suma de cuadrados debida a la regresión (es decir, debida a la variable explicativa), o explicada por ésta, o simplemente la suma de cuadrados explicada (SCE).
$\sum \hat{u}_i$ es la la variación residual o no explicada de los valores de Y alrededor de la línea de regresión, o sólo la suma de cuadrados de los residuos (SCR).

Por lo tanto, podemos reescribir la última ecuación de la siguiente manera:

$SCT = SCE + SCR$

Demostrando así, que la variación total en los valores $Y$ observados alrededor del valor de su media puede dividirse en dos partes, una atribuible a la línea de regresión y la otra a fuerzas aleatorias, pues no todas las observaciones $Y$ caen sobre la línea ajustada.

Dividiendo esta ecuación, entre la SCT a ambos lados tenemos que

$1 = \dfrac{SCE}{SCT} + \dfrac{SCR}{SCT}$

$= \dfrac{\sum (\hat{y}_i - \overline{Y})^2}{\sum (Y_i - \overline{Y})^2} + \dfrac{ \sum \hat{u}_i^2}{\sum (Y_i - \overline{Y})^2}$

Finalmente, definimos el coeficiente de determinación $r^2$ como

$r^2 = \dfrac{SCE}{SCT} = \dfrac{\sum (\hat{y}_i - \overline{Y})^2}{\sum (Y_i - \overline{Y})^2}$

Podemos calcularlo en R usando la siguiente sintaxis:

r2 <- sum((Y.e - m.Y)^2)/sum((Y - m.Y)^2)

También podemos definir el coeficiente de determinación $r^2$ como

$r^2 = 1 - \dfrac{SCR}{SCT} = 1 - \dfrac{ \sum \hat{u}_i^2}{\sum (Y_i - \overline{Y})^2}$

Podemos calcularlo en R usando la siguiente sintaxis:

r2 <- 1 - sum((Y - Y.e)^2)/sum((Y - m.Y)^2)

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

Observación	Salario	Escolaridad
1	4.4567	6
2	5.77	7
3	5.9787	8
4	7.3317	9
5	7.3182	10
6	6.5844	11
7	7.8182	12
8	7.8351	13
9	11.0223	14
10	10.6738	15
11	10.8361	16
12	13.615	17
13	13.531	18

Tabla 3.2

Una vez que hemos calculado el modelo lineal que define este conjunto de datos, podemos calcular el coeficiente de determinación para ver qué tan relacionadas están las variables Salario y Escolaridad, para esto, usamos la siguiente sintaxis:

r2 <- sum((salario.e - m.salario)^2)/sum((salario - m.salario)^2)

Al ejecutar estas instrucciones obtenemos coeficiente de determinación $r^2$ , que en este caso es igual a 0.9077914.

En su pantalla debería aparecer:

Resultados de R, Coeficiente de Determinación r cuadrado. | totumat.com

En este caso, el valor del coeficiente de determinación sugiere que la variación en $Y$ está explicada casi en su totalidad por la variación de la variable $X$ .

totumat

¡Tu guía de matemáticas!

R: El coeficiente de determinación r²

La bondad de ajuste

Ejemplo

¿Tienes alguna duda? Compártela en los comentarios. Cancelar la respuesta

La bondad de ajuste

Ejemplo

Comparte

Related

¿Tienes alguna duda? Compártela en los comentarios. Cancelar la respuesta