Antes de empezar a definir un modelo sobre un conjunto de datos, es importante conocer el comportamiento de una variable respecto a otra pues de esta forma, podemos hacernos una idea de cual es el modelo más adecuado para describirlo.
También pudiera interesarte
Diagrama de Dispersión
Una de las formas más directas y sencillas para estudiar la forma en que se relacionan dos variables es usando un diagrama de dispersión. Si consideramos dos variables de un conjunto de datos, digamos una variable exógena x y una variable endógena y, un Diagrama de Dispersión (o Gráfico de Dispersión) consiste en ubicar en el plano cartesiano cada par ordenado formado por los elementos de estas dos variables. Ubicando la variable exógena en el eje horizontal y la variable endógena en el eje vertical.
De esta forma, si nuestro objetivo es definir un Modelo de Regresión Lineal, ubicamos en el eje horizontal, los valores de la variable y en el eje vertical, los valores de la variable
. Podemos generar un diagrama de dispersión en R recurriendo a la instrucción plot y usamos la siguiente sintaxis:
plot(X,Y)
Ejemplo
Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:
Observación | Salario | Escolaridad |
1 | 4.4567 | 6 |
2 | 5.77 | 7 |
3 | 5.9787 | 8 |
4 | 7.3317 | 9 |
5 | 7.3182 | 10 |
6 | 6.5844 | 11 |
7 | 7.8182 | 12 |
8 | 7.8351 | 13 |
9 | 11.0223 | 14 |
10 | 10.6738 | 15 |
11 | 10.8361 | 16 |
12 | 13.615 | 17 |
13 | 13.531 | 18 |
Para generar un diagrama de dispersión que nos ayude a estudiar como el nivel de estudios afecta el salario de una persona, entonces: la variable Escolaridad será nuestra variable exógena y será ubicada en el eje horizontal; la variable Salario será nuestra variable endógena y será ubicada en el eje vertical.
Recurriremos a la instrucción plot para generar un diagrama de dispersión y usamos la siguiente sintaxis:
plot(escolaridad,salario)
Al ejecutar esta instrucción, aparecerá de forma inmediata el siguiente gráfico:

En su pantalla debería aparecer lo siguiente:

También es posible dibujar sobre el diagrama de dispersión la Recta de Regresión, para esto recurrimos a la instrucción abline(), usamos la siguiente sintaxis para generar la recta definida por $\hat{Y} = \hat{\beta}_1 + \hat{\beta}_2 X$:
abline(lm(Y ~ X))
Ejemplo para los residuos
Si bien los diagramas de dispersión nos ayudan a estudiar el comportamiento de dos variables, también nos ayudan a estudiar el comportamiento de los residuos. Uno de los supuestos para del Modelo Clásico de Regresión Lineal, estipula que no debe haber autocorrelación, esto quiere decir que la correlación de los residuos debe ser nula.
A partir de la forma en que está definido el modelo lineal, podemos calcular los residuos usando la siguiente fórmula:
Entonces, si calculamos cada uno de los valores estimados , podemos determinar los residuos usando la siguiente sintaxis:
Y.e <- beta1 + beta2*X
res <- Y - Y.e
Usamos la instrucción plot(res) para generar un gráfico de dispersión de los residuos tomando en cuenta que en el eje horizontal se ubica el número de observación y en el vertical el residuo correspondiente. Un indicador de no autocorrelación es que el gráfico de dispersión no presente ningún patrón de comportamiento, en términos coloquiales: que estén todos a lo loco.
Continuando con nuestro ejemplo, generamos un gráfico usando la siguiente sintaxis:
salario.e <- beta1 + beta2*escolaridad
residuos <- salario - salario.e
plot(residuos)
Al ejecutar estas instrucciones, aparecerá de forma inmediata el siguiente gráfico:

En su pantalla debería aparecer:

Aunque pareciera no haber ningún patrón, no podemos asegurar no hay autocorrelación, también hay que considerar que el tamaño de la muestra es pequeño así que las afirmaciones que se hagan sobre el comportamiento que describe el modelo lineal puede ser impreciso.
[…] QQ-Plot se traduce como el Diagrama de Cuantil-Cuantil y es un diagrama de dispersión que permite comparar distribución de probabilidades. Una gráfica Q-Q es una gráfica de […]
Me gustaMe gusta