R: El coeficiente de determinación r²

Una vez que hemos calculado la función de regresión muestral como un modelo lineal a partir de un conjunto de datos, podemos notar en su gráfica que las observaciones no necesariamente caen sobre la línea que describe dicha función y aunque esta sería situación ideal (pues así podemos describir con precisión todo el conjunto de datos usando una función), esto no ocurre en la realidad.

También pudiera interesarte

La bondad de ajuste

Considerando el siguiente gráfico, si todas las observaciones cayeran en la línea de regresión, obtendríamos lo que se conoce como un ajuste perfecto, pero rara vez se presenta este caso. Por lo general los valores de \hat{u}_i pueden ser positivos o negativos, gráficamente, podemos decir que algunas observaciones estarán por encima de la línea de regresión y otras por debajo.

Diagrama de Dispersión y Línea de Regresión | totumat.com

Aunque se tiene la esperanza de que los residuos alrededor de la línea de regresión sean lo más pequeños posibles, el coeficiente de determinación r^2 (caso de dos variables) o R^2 (regresión múltiple) es una medida comprendida que dice que tan bien se ajusta la línea de regresión muestral a los datos.

Antes de mostrar cómo calcular r^2, consideremos Diagramas de Venn para entender qué representa el valor de r^2, de forma que: el círculo Y, representa la variación en la variable dependiente Y; el círculo X, la variación en la variable explicativa X.

Si estos dos círculos no se intersectan, entonces la variación en Y no es explicada por la variación en X. El valor de r^2 que representa esta situación, es r^2=0

El coeficiente de determinación r² | totumat.com

La intersección de los dos círculos (el área sombreada) indica la medida en la cual la variación en Y se explica por la variación en X.

Entre mayor sea el área de la intersección, mayor será la variación en Y que se explica por la variación de X. r^2 es tan sólo una medida numérica de esta intersección y generalmente es un valor entre 0 y 1.

El coeficiente de determinación r² | totumat.com

Si estos dos círculos se intersectan en su totalidad, es decir, son iguales, entonces la variación en Y está explicada en su totalidad por la variación de la variable X. El valor de r^2 que representa esta situación, es r^2=1

El coeficiente de determinación r² | totumat.com

Para calcular r^2, partimos del hecho que Y_i = \hat{Y}_i + \hat{u}_i, que expresado en forma de desviación, es decir, como la diferencia de cada observación con la media,

y_i = \hat{y}_i + \hat{u}_i

Al elevar al cuadrado esta última ecuación en ambos lados y sumar sobre la muestra, obtenemos

\sum y_i^2

= \sum \hat{y}_i^2 + \sum \hat{u}_i^2 + 2\sum \hat{y}_i \hat{u}_i

= \sum \hat{y}_i^2 + \sum \hat{u}_i^2

= \hat{\beta}_2^2 \sum \hat{x}_i^2 + \sum \hat{u}_i^2

Esa última igualdad se debe a que \sum \hat{y}_i \hat{u}_i = 0 y \hat{y}_i = \hat{\beta}_2 \hat{x}_i.

Las diversas sumas de cuadrados en esta ecuación se describen de la siguiente manera:

  • \sum y_i = \sum (Y_i - \overline{Y})^2 es la variación total de los valores reales de Y respecto de su media muestral, que puede denominarse la suma de cuadrados total (SCT).
  • \sum \hat{y}_i = \sum (\hat{y}_i - \overline{Y})^2 = \hat{\beta}_2^2 \sum \hat{x}_i^2 es la variación de los valores de Y estimados alrededor de su media, que apropiadamente puede llamarse la suma de cuadrados debida a la regresión (es decir, debida a la variable explicativa), o explicada por ésta, o simplemente la suma de cuadrados explicada (SCE).
  • \sum \hat{u}_i es la la variación residual o no explicada de los valores de Y alrededor de la línea de regresión, o sólo la suma de cuadrados de los residuos (SCR).

Por lo tanto, podemos reescribir la última ecuación de la siguiente manera:

SCT = SCE + SCR

Demostrando así, que la variación total en los valores Y observados alrededor del valor de su media puede dividirse en dos partes, una atribuible a la línea de regresión y la otra a fuerzas aleatorias, pues no todas las observaciones Y caen sobre la línea ajustada.

Dividiendo esta ecuación, entre la SCT a ambos lados tenemos que

1 = \dfrac{SCE}{SCT} + \dfrac{SCR}{SCT}

= \dfrac{\sum (\hat{y}_i - \overline{Y})^2}{\sum (Y_i - \overline{Y})^2} + \dfrac{ \sum \hat{u}_i^2}{\sum (Y_i - \overline{Y})^2}

Finalmente, definimos el coeficiente de determinación r^2 como

r^2 = \dfrac{SCE}{SCT} = \dfrac{\sum (\hat{y}_i - \overline{Y})^2}{\sum (Y_i - \overline{Y})^2}

Podemos calcularlo en R usando la siguiente sintaxis:

r2 <- sum((Y.e - m.Y)^2)/sum((Y - m.Y)^2)

También podemos definir el coeficiente de determinación r^2 como

r^2 = 1 - \dfrac{SCR}{SCT} = 1 - \dfrac{ \sum \hat{u}_i^2}{\sum (Y_i - \overline{Y})^2}

Podemos calcularlo en R usando la siguiente sintaxis:

r2 <- 1 - sum((Y - Y.e)^2)/sum((Y - m.Y)^2)

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Una vez que hemos calculado el modelo lineal que define este conjunto de datos, podemos calcular el coeficiente de determinación para ver qué tan relacionadas están las variables Salario y Escolaridad, para esto, usamos la siguiente sintaxis:

r2 <- sum((salario.e - m.salario)^2)/sum((salario - m.salario)^2)

Al ejecutar estas instrucciones obtenemos coeficiente de determinación r^2, que en este caso es igual a 0.9077914.

En su pantalla debería aparecer:

Resultados de R, Coeficiente de Determinación r cuadrado. | totumat.com

En este caso, el valor del coeficiente de determinación sugiere que la variación en Y está explicada casi en su totalidad por la variación de la variable X.


Varianza y Error estándar

R: El error estándar

El Método de los Mínimos Cuadrados Ordinarios (MCO) nos provee una forma estimar los parámetros \hat{\beta}_2 y \hat{\beta}_1, sin embargo, al estar estos valores condicionados a la muestra que se tome, es probable que entre una muestra y otra, estos valores presenten variaciones. Entonces, surge la pregunta: ¿de qué forma podemos garantizar precisión en las estimaciones? O al menos, ¿podemos medir la imprecisión de estas?

También pudiera interesarte


La varianza muestral y el error estándar

La teoría estadística provee una forma de medir la precisión de un valor estimado, esto es, el error estándar (ee) que está definido como la desviación estándar de la distribución muestral del estimador. Es importante recalcar que al hablar sólo de desviación estándar, hacemos referencia a la población, en cambio, al hablar del error estándar, hacemos referencia a la muestra de dicha población.

Considerando la varianza muestral, que mide la variabilidad de los datos respecto a su media; podemos calcular el error estándar al tomar la raíz cuadrada de esta. Entonces, si \sigma es la desviación estándar:

Calculamos la varianza y el error estándar del parámetro \hat{\beta}_2 usando las siguientes fórmulas respectivamente,

var(\hat{\beta}_2) = \dfrac{\sigma^2}{\sum x_i^2}

ee(\hat{\beta}_2) = \dfrac{\sigma}{ \sqrt{\sum x_i^2} }

Podemos calcular la varianza y el error estándar del parámetro \hat{\beta}_2 en R usando la siguiente sintaxis:

var.beta2 <- sigma2.e/sum( (Yd-m.Yd)^2 )
ee.beta2 <- sqrt(v.beta2)

Por otra parte calculamos la varianza y el error estándar del parámetro \hat{\beta}_1 usando las siguientes fórmulas respectivamente,

var(\hat{\beta}_1) = \dfrac{ \sum X_i^2 }{n \sum x_i^2} \cdot \sigma^2

ee(\hat{\beta}_1) = \sqrt{ \dfrac{ \sum X_i^2 }{n \sum x_i^2} } \cdot \sigma

Podemos calcular la varianza y el error estándar del parámetro \hat{\beta}_1 en R usando la siguiente sintaxis:

var.beta1 <- sigma2.e*sum( Yd^2 )/(length(Yd)*sum( (Yd-m.Yd)^2 ))
ee.beta1 <- sqrt(v.beta1)

La desviación estándar estimada y el error estándar de estimación

Si bien contamos con los datos para calcular parte de estas expresiones, aún desconocemos el valor de \sigma^2, pues este valor se obtiene a partir de la población pero sólo contamos con una muestra, afortunadamente, podemos definir una fórmula que nos estima a través de del Método de Mínimos Cuadrados Ordinarios a la verdadera pero desconocida \sigma^2, esta fórmula es

\hat{\sigma}^2 = \dfrac{\sum \hat{u}_i^2}{n-2}

Podemos calcular la desviación estándar estimada en R usando la siguiente sintaxis:

sigma2.e <- sum(res^2)/(lenght(X)-2)

Vale la pena destacar que la raíz cuadrada de \hat{\sigma}^2 se conoce como el error estándar de estimación o el error estándar de la regresión (eee). No es más que la desviación estándar de los valores Y alrededor de la línea de regresión estimada, la cual suele servir como medida para resumir la bondad del ajuste de dicha línea. Se calcula de la siguiente manera

\hat{\sigma} = \sqrt{\dfrac{\sum \hat{u}_i^2}{n-2}}

Podemos calcular este valor en R usando la siguiente sintaxis:

ee.e <- sqrt(sigma2.e)

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Una vez que hemos calculado el modelo lineal que define este conjunto de datos, podemos determinar el error estándar de los parámetros estimados, pero primero debemos estimar la desviación estándar usando la siguiente sintaxis:

sigma2.e <- sum( (residuos)^2 )/(length(salario)-2)

Podemos calcular la varianza y el error estándar del parámetro \hat{\beta}_2 en R usando la siguiente sintaxis:

var.beta2 <- sigma2.e/sum( (escolaridad-m.escolaridad)^2 )
ee.beta2 <- sqrt(var.beta2)

Al ejecutar estas instrucciones obtenemos error estándar del parámetro \hat{\beta}_2, que en este caso es igual a 0.06958134.


Podemos calcular la varianza y el error estándar del parámetro \hat{\beta}_1 en R usando la siguiente sintaxis:

var.beta1 <- sigma2.e*sum( escolaridad^2 )/(length(escolaridad)*sum( (escolaridad-m.escolaridad)^2 ))
ee.beta1 <- sqrt(var.beta1)

Al ejecutar estas instrucciones obtenemos error estándar del parámetro \hat{\beta}_1, que en este caso es igual a 0.8746239.

En su pantalla debería aparecer:

Varianza y Error Estándar de los parámetros en R. | totumat.com

Diagrama de Dispersión

R: Diagrama de Dispersión

Antes de empezar a definir un modelo sobre un conjunto de datos, es importante conocer el comportamiento de una variable respecto a otra pues de esta forma, podemos hacernos una idea de cual es el modelo más adecuado para describirlo.

También pudiera interesarte


Diagrama de Dispersión

Una de las formas más directas y sencillas para estudiar la forma en que se relacionan dos variables es usando un diagrama de dispersión. Si consideramos dos variables de un conjunto de datos, digamos una variable exógena x y una variable endógena y, un Diagrama de Dispersión (o Gráfico de Dispersión) consiste en ubicar en el plano cartesiano cada par ordenado formado por los elementos de estas dos variables. Ubicando la variable exógena en el eje horizontal y la variable endógena en el eje vertical.

De esta forma, si nuestro objetivo es definir un Modelo de Regresión Lineal, ubicamos en el eje horizontal, los valores de la variable X y en el eje vertical, los valores de la variable Y. Podemos generar un diagrama de dispersión en R recurriendo a la instrucción plot y usamos la siguiente sintaxis:

plot(X,Y)

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Para generar un diagrama de dispersión que nos ayude a estudiar como el nivel de estudios afecta el salario de una persona, entonces: la variable Escolaridad será nuestra variable exógena y será ubicada en el eje horizontal; la variable Salario será nuestra variable endógena y será ubicada en el eje vertical.

Recurriremos a la instrucción plot para generar un diagrama de dispersión y usamos la siguiente sintaxis:

plot(escolaridad,salario)

Al ejecutar esta instrucción, aparecerá de forma inmediata el siguiente gráfico:

Diagrama de Dispersión | totumat.com

En su pantalla debería aparecer lo siguiente:

Diagrama de Dispersión | totumat.com

También es posible dibujar sobre el diagrama de dispersión la Recta de Regresión, para esto recurrimos a la instrucción abline(), usamos la siguiente sintaxis para generar la recta definida por $\hat{Y} = \hat{\beta}_1 + \hat{\beta}_2 X$:

abline(lm(Y ~ X))
Anuncios

Ejemplo para los residuos

Si bien los diagramas de dispersión nos ayudan a estudiar el comportamiento de dos variables, también nos ayudan a estudiar el comportamiento de los residuos. Uno de los supuestos para del Modelo Clásico de Regresión Lineal, estipula que no debe haber autocorrelación, esto quiere decir que la correlación de los residuos debe ser nula.

A partir de la forma en que está definido el modelo lineal, podemos calcular los residuos usando la siguiente fórmula:

\hat{u}_i = Y_i - \hat{Y}_i

Entonces, si calculamos cada uno de los valores estimados \hat{Y}_i, podemos determinar los residuos usando la siguiente sintaxis:

Y.e <- beta1 + beta2*X
res <- Y - Y.e

Usamos la instrucción plot(res) para generar un gráfico de dispersión de los residuos tomando en cuenta que en el eje horizontal se ubica el número de observación y en el vertical el residuo correspondiente. Un indicador de no autocorrelación es que el gráfico de dispersión no presente ningún patrón de comportamiento, en términos coloquiales: que estén todos a lo loco.

Continuando con nuestro ejemplo, generamos un gráfico usando la siguiente sintaxis:

salario.e <- beta1 + beta2*escolaridad
residuos <- salario - salario.e
plot(residuos)

Al ejecutar estas instrucciones, aparecerá de forma inmediata el siguiente gráfico:

Diagrama de Dispersión de los Residuos | totumat.com

En su pantalla debería aparecer:

Diagrama de Dispersión de los Residuos | totumat.com

Aunque pareciera no haber ningún patrón, no podemos asegurar no hay autocorrelación, también hay que considerar que el tamaño de la muestra es pequeño así que las afirmaciones que se hagan sobre el comportamiento que describe el modelo lineal puede ser impreciso.


R: Estimadores Mínimos Cuadrados Ordinarios (MCO)

El análisis de regresión sienta la base para los estudios econométricos y a su vez, estos se fundamentan formulando modelos lineales con dos variables: una independiente y otra dependiente; este tipo de modelos definen rectas, es decir, aquellos que se expresan de la siguiente forma:

Y = \beta_1 + \beta_2 X

También pudiera interesarte

Linealidad

Al mencionar la linealidad en una relación entre variables, siempre es importante especificar respecto a qué elemento de la relación, es dicha relación, lineal. Formalmente, diremos que una relación es lineal respecto a un elemento de la ecuación, si dicho elemento no está siendo multiplicada por sí mismo o si permanece inalterado por alguna función en la expresión, por ejemplo, la siguiente ecuación

Y = \beta_1^2 + \beta_2 \cdot \ln(X)

Es una ecuación lineal respecto respecto la variable Y y el parámetro \beta_2, debido a que estos dos elementos permanecen inalterados. Sin embargo, no es lineal respecto al parámetro \beta_1 pues este está multiplicado por sí mismo, tampoco es lineal respecto a la variable X pues esta está alterada por la función logaritmo neperiano.

La linealidad respecto a los parámetros representa una base en la que se fundamentan los Modelos Lineales que estudiaremos. Es por esto que, usualmente, el término regresión lineal hace referencia a la linealidad de los parámetros. Por lo tanto, puede o no ser lineal en las variables.

El Modelo de Regresión Lineal

Todo estudio de índole estadístico está sometido a un error de aproximación y la econometría no escapa de esta característica, de forma que, al efectuar un censo poblacional, se puede estimar un modelo definido por la Función de Regresión Poblacional (FRP), expresado de la siguiente manera:

Y_i = \beta_1 + \beta_2 X_i + u_i

Sin embargo, llevar a cabo un censo puede resultar costoso en todos los aspectos, es por esto que se recurre a muestras poblacionales, a partir de las cuales se puede estimar un modelo definido por la Función de Regresión Muestral (FRM), expresado de la siguiente manera:

\hat{Y}_i = \hat{\beta}_1 + \hat{\beta}_2 x_i + \hat{u}_i

Y si bien el objetivo principal del análisis de regresión es estimar la FRP con base en la FRM, siempre se debe tomar en cuenta que: debido a fluctuaciones muestrales, la estimación de la FRP basada en la FRM es, en el mejor de los casos, una aproximación.

Mínimos Cuadrados Ordinarios (MCO)

Entonces, los valores de \beta_1 y \beta_2 se pueden estimar a partir de una muestra, usando un modelo que cuente con el término de error \hat{u}_i más pequeño posible, sin embargo, no podemos permitir que estos errores se anulen.

El Método de los Mínimos Cuadrados Ordinarios (MCO) que consiste en considerar, de todos los modelos posibles, el modelo tal que la suma de los cuadrados de los residuos \hat{u}_i sea la más pequeña, es decir, tal que la siguiente suma sea la más pequeña:

\sum \hat{u}^2

Llevando a cabo los cálculos necesarios para que esto se cumpla, se determina que los valores que estiman a \beta_1 y \beta_2, es decir, los estimadores \hat{\beta}_1 y \hat{\beta}_2 se calculan de la siguiente forma:

El valor \beta_2 se conoce como la pendiente y su estimador es:

\hat{\beta}_2 = \dfrac{\sum x_i y_i}{\sum x_i^2}

El valor \beta_1 se conoce como el intercepto y su estimador es:

\hat{\beta}_1 = \overline{Y} - \hat{\beta}_2 \overline{X}

Conociendo estas dos expresiones, podemos hacer los cálculos correspondientes en R, pues calculando la media de las variables X y Y, usamos la siguiente sintaxis para calcular los estimadores

m.X <- mean(X)
m.Y <- mean(Y)
beta2 <- sum((X - m.X)*(Y - m.Y))/sum((X - m.X)^2)
beta1 <- m.Y - beta2*m.X

Ejemplo

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Si queremos definir un modelo que describa el salario de una persona en función del nivel de estudio que esta persona tenga, empezamos por definir las variables salario y escolaridad, usando las siguientes instrucciones:

escolaridad <- c(6,7,8,9,10,11,12,13,14,15,16,17,18)
salario <- c(4.4567,5.77,5.9787,7.3317,7.3182,6.5844,7.8182,7.8351,11.0223,10.6738,10.8361,13.615,13.531)

Una vez definidas estas variables, podemos definir nuevas variables para almacenar la media de cada una de ellas:

m.escolaridad <- mean(escolaridad)
m.salario <- mean(salario)

Posteriormente, calculamos los estimadores:

beta2 <- sum( (escolaridad-m.escolaridad)*(salario-m.salario) )/sum( (escolaridad-m.escolaridad)^2 )
beta1 <- m.salario - beta2*m.escolaridad

Al ejecutar estas instrucciones definimos las variables y podemos ver los valores que cada una de ellas tienen, particularmente la de los estimadores que son las que nos interesan.

Modelo Lineal de Salario en función de Escolaridad | totumat.com

Mi recomendación es usar el símbolo de numeral «#» para hacer comentarios en el script y mantener orden en las instrucciones que escribimos o entender porqué las escribimos, les comparto como haría yo estas anotaciones.

Modelo Lineal de Salario en función de Escolaridad | totumat.com

Habiendo calculado los valores de los estimadores, concluimos que el modelo lineal determinado por el método de los Mínimos Cuadrados Ordinarios, que estima el comportamiento de los valores expuestos en la Tabla 3.2 es el siguiente:

Salario = -0.0144 + 0.7240 \cdot Escolaridad

Anuncios

La instrucción lm

También podemos recurrir a la instrucción lm para definir un modelo lineal, de forma que si queremos definir a la variable Y en función de la variable X, entonces usamos la siguiente sintaxis:

lm(Y ~ X)

Note que se ha usado la virguilla (~) para definir la relación entre las dos variables. Entonces, continuando con nuestro ejemplo, podemos definir el modelo lineal que describe el Salario en función de la Escolaridad usando la siguiente sintaxis:

lm(salario ~ escolaridad)

Al ejecutar esta instrucción, en la consola deberá aparecer lo siguiente:

> lm(salario ~ escolaridad)
Call:
lm(formula = salario ~ escolaridad)
Coefficients:
(Intercept)  escolaridad  
   -0.01445      0.72410  

En su pantalla debería aparecer:

Modelo Lineal de Salario en función de Escolaridad | totumat.com

R, instrucciones básicas.

R provee un lenguaje de programación para que sus usuarios puedan crear de la nada scripts para llevar a cabo tareas titánicas, es por esto que nos debemos familiarizar con algunos de los elementos más básicos de sus instrucciones y la sintaxis correspondiente.

También pudiera interesarte

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Vectores

Si queremos trabajar con este conjunto de datos, es necesario almacenarlos en la memoria de nuestro espacio de trabajo y la forma más básica para hacer esto es usando vectores. Los vectores son la estructura de datos más simple en R y representan una secuencia de elementos del mismo tipo (de acuerdo con la web datasicience+).

Si queremos definir un vector a partir de una variable x que cuenta con n observaciones, la sintaxis correspondiente es

c(x_1,x_2,...,x_n)

En nuestro caso, debemos definir un vectores que alberguen datos numéricos, y considerando nuestro conjunto de datos:

Para definir una variable llamada obs que albergue la información del vector que consisten en los elementos de la variable Observación, escribimos lo siguiente:

obs <- c(1,2,3,4,5,6,7,8,9,10,11,12,13)

Para definir una variable llamada salario que albergue la información del vector que consisten en los elementos de la variable Salario, escribimos lo siguiente:

salario <- c(4.4567,5.77,5.9787,7.3317,7.3182,6.5844,7.8182,7.8351,11.0223,10.6738,10.8361,13.615,13.531)

Para definir una variable llamada escolaridad que albergue la información del vector que consisten en los elementos de la variable Escolaridad, escribimos lo siguiente:

escolaridad <- c(6,7,8,9,10,11,12,13,14,15,16,17,18)
Anuncios

Instrucciones

Llevar a cabo ciertos cálculos resulta tedioso cuando la cantidad de elementos involucrados es muy grande, afortunadamente, podemos indicarle a R que haga estos cálculos por nosotros a través de las instrucciones (también llamadas comandos, como un anglicismo de la palabra commands).

La suma de los elementos de un vector

Una vez que hemos definido variables a partir de vectores, podemos dar nuestros primeros pasos para trabajar con con los datos de nuestra tabla. Empecemos con algo básico como calcular la suma de los elementos de un vector, que pudiéramos calcularla sumando cada uno de los elementos usando las operaciones básicas de R.

Sin embargo, R provee una instrucción que permite efectuar la suma de todos los elementos de un vector. Entonces, si x es una variable definida por un vector que alberga valores numéricos, la sintaxis correspondiente es

sum(x)

Considerando las variables salario y escolaridad que hemos definido anteriormente, podemos calcular la suma de las observaciones de cada variable usando, de forma respectiva, las siguientes instrucciones

sum(salario)
sum(escolaridad)

Al ejecutar estas instrucciones, aparecerá de forma inmediata la siguiente información en la consola:

> sum(salario)
[1] 112.7712
> sum(escolaridad)
[1] 156
Anuncios

La longitud de un vector

Al hacer estudios estadísticos siempre es importante determinar la cantidad de observaciones con las que se cuentan y la instrucción que nos permite determinar esta cantidad es conocida como la longitud del vector que alberga la información. Entonces, si x es una variable definida por un vector que alberga valores numéricos, la sintaxis correspondiente es

length(x)

Considerando las variables salario y escolaridad que hemos definido anteriormente, podemos calcular la cantidad de observaciones de cada variable usando, de forma respectiva, las siguientes instrucciones

length(salario)
length(escolaridad)

Al ejecutar estas instrucciones, aparecerá de forma inmediata la siguiente información en la consola:

> length(salario)
[1] 13
> length(escolaridad)
[1] 13
Anuncios

La media

La media de una variable sienta la base para la estadística descriptiva y de ahí radica la importancia de aprender a calcularla. Esta se calcula con el cociente de la suma de todas las observaciones entre la cantidad de observaciones, de forma que si tenemos una variable x que cuenta con n observaciones x_1, x_2, \ldots, x_n, la media se calcula usando la siguiente fórmula:

\dfrac{x_1 + x_2 + \ldots + x_n}{n}

Por lo tanto, podemos combinar las instrucciones de suma y longitud de un vector para calcular la media. Entonces, si x es una variable definida por un vector que alberga valores numéricos, la sintaxis correspondiente es

sum(x)/length(x)

Muy bien, de esta forma podemos calcular la media de una variable, pero debido al extenso uso de la media para los cálculos estadísticos, R provee una instrucción específica para calcularla y la sintaxis correspondiente es:

mean(x)

Considerando las variables salario y escolaridad que hemos definido anteriormente, podemos calcular la media de cada variable usando, de forma respectiva, las siguientes instrucciones

mean(salario)
mean(escolaridad)

Al ejecutar estas instrucciones, aparecerá de forma inmediata la siguiente información en la consola:

> mean(salario)
[1] 8.674708
> mean(escolaridad)
[1] 12
Anuncios

La varianza

La varianza de una variable representa información vital la estadística descriptiva, por lo que también es importante de aprender a calcularla. Esta se calcula con el cociente de la suma de todos cuadrados de las diferencias de las observaciones con la media, entre la cantidad de observaciones, de forma que si tenemos una variable x que cuenta con n observaciones x_1, x_2, \ldots, x_n y media \overline{x}, la varianza se calcula usando la siguiente fórmula:

\dfrac{ (x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + \ldots + (x_n -  \overline{x})^2}{n}

Y si bien, podemos combinar las instrucciones anteriormente descritas para hacer este cálculo, este proceso puede resultar engorroso. Afortunadamente, R provee una instrucción específica para calcularla; si x es una variable definida por un vector que alberga valores numéricos, la sintaxis correspondiente es

var(x)

Considerando las variables salario y escolaridad que hemos definido anteriormente, podemos calcular la varianza de cada variable usando, de forma respectiva, las siguientes instrucciones

var(salario)
var(escolaridad)

Al ejecutar estas instrucciones, aparecerá de forma inmediata la siguiente información en la consola:

> var(salario)
[1] 8.759861
> var(escolaridad)
[1] 15.16667