R: El coeficiente de correlación r

Hemos visto que el coeficiente de determinación nos permite determinar en qué medida dos variables están relacionadas, pero siempre resulta de interés preguntarse si es posible determinar la forma en que estas dos variables están relacionadas, particularmente, en qué medida están correlacionadas.

También pudiera interesarte

Anuncios

Coeficiente de Correlación Muestral

Considerando una de las fórmulas para calcular el coeficiente de determinación r^2, definimos un nuevo valor que está íntimamente relacionado con dicha fórmula pero que conceptualmente son diferentes. Entonces, partiendo del hecho que,

r^2 = \dfrac{(\sum x_i y_i)^2}{\sum x_i^2 \sum y_i^2}

Definimos un nuevo valor r, conocido como el Coeficiente de Correlación Muestral, que mide el grado de asociación lineal entre dos variables y se calcula de la siguiente forma:

r = \dfrac{\sum x_i y_i}{\sqrt{\sum x_i^2 \sum y_i^2}}

Podemos calcularlo en R usando la siguiente sintaxis:

r <- sum((X-m.X)*(Y-m.Y))/sqrt(sum((X - m.X)^2)*sum((Y - m.Y)^2))

Es importante destacar que:

Aunque el coeficiente de correlación r es una medida de asociación lineal entre dos variables, este no implica necesariamente alguna relación causa-efecto.

Una ventaja en el cálculo de este coeficiente, es que es simétrico por la forma en que está definido, es decir, el coeficiente de correlación entre X y Y (r_{XY}) es el mismo que entre Y y X (r_{YX}).

Interpretación Gráfica del Coeficiente de Correlación Muestral

A diferencia de r^2, que está acotado por 0 y 1; el coeficiente de correlación muestral está acotado por -1 y 1, esto quiere decir que puede tomar valores negativos. Entonces, considerando que gráficamente es independiente del origen y de la escala, podemos considerar varias observaciones sobre este valor:

Si valor del coeficiente de correlación r es exactamente igual a 1 (uno positivo), los datos están representados gráficamente sobre una línea recta creciente.

Interpretación Gráfica del Coeficiente de Correlación Muestral, r=1 | totumat.com

Si valor del coeficiente de correlación r es exactamente igual a -1 (uno negativo), los datos están representados gráficamente sobre una línea recta decreciente.

Interpretación Gráfica del Coeficiente de Correlación Muestral, r=-1 | totumat.com

Si valor del coeficiente de correlación r está cercano a 1 (uno positivo), los datos representados gráficamente, tienen una clara tendencia lineal creciente pero no están exactamente alineados.

Interpretación Gráfica del Coeficiente de Correlación Muestral, r cerca de 1 | totumat.com

Si valor del coeficiente de correlación r está cercano a -1 (uno negativo), los datos representados gráficamente, tienen una clara tendencia lineal decreciente pero no están exactamente alineados.

Interpretación Gráfica del Coeficiente de Correlación Muestral, r cerca de -1 | totumat.com

Si valor del coeficiente de correlación r está cercano a 0 pero es positivo, los datos representados gráficamente, tienen una tendencia lineal creciente pero presentan una dispersión mayor a media que el valor de r está más cercano a cero.

Interpretación Gráfica del Coeficiente de Correlación Muestral, r cerca de 0 pero positivo | totumat.com

Si valor del coeficiente de correlación r está cercano a 0 pero es negativo, los datos representados gráficamente, tienen una tendencia lineal decreciente pero presentan una dispersión mayor a media que el valor de r está más cercano a cero.

Interpretación Gráfica del Coeficiente de Correlación Muestral, r cerca de 0 pero negativo | totumat.com

Si la variable Y y la variable X son estadísticamente independientes, entonces valor del coeficiente de correlación r es igual a cero y en este caso, los datos representados gráficamente, no presentan ningún tipo de tendencia lineal.

Interpretación Gráfica del Coeficiente de Correlación Muestral, r igual a cero | totumat.com

Precaución: El coeficiente de correlación r es una medida de asociación lineal (o dependencia lineal) solamente; su uso en la descripción de relaciones no lineales no tiene significado. Dicho esto, puede ocurrir que r sea igual a cero pero el conjunto de datos presente otro tipo de relación.

Interpretación Gráfica del Coeficiente de Correlación Muestral, r igual a cero pero Y=X^2 | totumat.com

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Una vez que hemos calculado el modelo lineal que define este conjunto de datos, podemos calcular el coeficiente de determinación para ver qué tan relacionadas están las variables Salario y Escolaridad, para esto, usamos la siguiente sintaxis:

r <- sum((escolaridad-m.escolaridad)*(salario-m.salario))/sqrt(sum((escolaridad - m.escolaridad)^2)*sum((salario - m.salario)^2))

Al ejecutar estas instrucciones obtenemos coeficiente de correlación r, que en este caso es igual a 0.9527809.

En su pantalla debería aparecer:

En este caso, el valor del coeficiente de correlación sugiere que la variable Y y la variable X definen un tendencia lineal creciente y es lo que se puede observar en el gráfico de dispersión.

Gráfico de Dispersión

Anuncio publicitario

Un comentario en “R: El coeficiente de correlación r

¿Tienes alguna duda? Compártela en los comentarios.

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.