R para introducir a la Econometría: instrucciones básicas.

R provee un lenguaje de programación para que sus usuarios puedan crear de la nada scripts para llevar a cabo tareas titánicas, es por esto que nos debemos familiarizar con algunos de los elementos más básicos de sus instrucciones y la sintaxis correspondiente.

También pudiera interesarte

Anuncios

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

Vectores

Si queremos trabajar con este conjunto de datos, es necesario almacenarlos en la memoria de nuestro espacio de trabajo y la forma más básica para hacer esto es usando vectores. Los vectores son la estructura de datos más simple en R y representan una secuencia de elementos del mismo tipo (de acuerdo con la web datasicience+).

Si queremos definir un vector a partir de una variable x que cuenta con n observaciones, la sintaxis correspondiente es

c(x_1,x_2,...,x_n)

En nuestro caso, debemos definir un vectores que alberguen datos numéricos, y considerando nuestro conjunto de datos:

Para definir una variable llamada obs que albergue la información del vector que consisten en los elementos de la variable Observación, escribimos lo siguiente:

obs <- c(1,2,3,4,5,6,7,8,9,10,11,12,13)

Para definir una variable llamada salario que albergue la información del vector que consisten en los elementos de la variable Salario, escribimos lo siguiente:

salario <- c(4.4567,5.77,5.9787,7.3317,7.3182,6.5844,7.8182,7.8351,11.0223,10.6738,10.8361,13.615,13.531)

Para definir una variable llamada escolaridad que albergue la información del vector que consisten en los elementos de la variable Escolaridad, escribimos lo siguiente:

escolaridad <- c(6,7,8,9,10,11,12,13,14,15,16,17,18)
Anuncios

Instrucciones

Llevar a cabo ciertos cálculos resulta tedioso cuando la cantidad de elementos involucrados es muy grande, afortunadamente, podemos indicarle a R que haga estos cálculos por nosotros a través de las instrucciones (también llamadas comandos, como un anglicismo de la palabra commands).

La suma de los elementos de un vector

Una vez que hemos definido variables a partir de vectores, podemos dar nuestros primeros pasos para trabajar con con los datos de nuestra tabla. Empecemos con algo básico como calcular la suma de los elementos de un vector, que pudiéramos calcularla sumando cada uno de los elementos usando las operaciones básicas de R.

Sin embargo, R provee una instrucción que permite efectuar la suma de todos los elementos de un vector. Entonces, si x es una variable definida por un vector que alberga valores numéricos, la sintaxis correspondiente es

sum(x)

Considerando las variables salario y escolaridad que hemos definido anteriormente, podemos calcular la suma de las observaciones de cada variable usando, de forma respectiva, las siguientes instrucciones

sum(salario)
sum(escolaridad)

Al ejecutar estas instrucciones, aparecerá de forma inmediata la siguiente información en la consola:

> sum(salario)
[1] 112.7712
> sum(escolaridad)
[1] 156
Anuncios

La longitud de un vector

Al hacer estudios estadísticos siempre es importante determinar la cantidad de observaciones con las que se cuentan y la instrucción que nos permite determinar esta cantidad es conocida como la longitud del vector que alberga la información. Entonces, si x es una variable definida por un vector que alberga valores numéricos, la sintaxis correspondiente es

length(x)

Considerando las variables salario y escolaridad que hemos definido anteriormente, podemos calcular la cantidad de observaciones de cada variable usando, de forma respectiva, las siguientes instrucciones

length(salario)
length(escolaridad)

Al ejecutar estas instrucciones, aparecerá de forma inmediata la siguiente información en la consola:

> length(salario)
[1] 13
> length(escolaridad)
[1] 13
Anuncios

La media

La media de una variable sienta la base para la estadística descriptiva y de ahí radica la importancia de aprender a calcularla. Esta se calcula con el cociente de la suma de todas las observaciones entre la cantidad de observaciones, de forma que si tenemos una variable x que cuenta con n observaciones x_1, x_2, \ldots, x_n, la media se calcula usando la siguiente fórmula:

\dfrac{x_1 + x_2 + \ldots + x_n}{n}

Por lo tanto, podemos combinar las instrucciones de suma y longitud de un vector para calcular la media. Entonces, si x es una variable definida por un vector que alberga valores numéricos, la sintaxis correspondiente es

sum(x)/length(x)

Muy bien, de esta forma podemos calcular la media de una variable, pero debido al extenso uso de la media para los cálculos estadísticos, R provee una instrucción específica para calcularla y la sintaxis correspondiente es:

mean(x)

Considerando las variables salario y escolaridad que hemos definido anteriormente, podemos calcular la media de cada variable usando, de forma respectiva, las siguientes instrucciones

mean(salario)
mean(escolaridad)

Al ejecutar estas instrucciones, aparecerá de forma inmediata la siguiente información en la consola:

> mean(salario)
[1] 8.674708
> mean(escolaridad)
[1] 12
Anuncios

La varianza

La varianza de una variable representa información vital la estadística descriptiva, por lo que también es importante de aprender a calcularla. Esta se calcula con el cociente de la suma de todos cuadrados de las diferencias de las observaciones con la media, entre la cantidad de observaciones, de forma que si tenemos una variable x que cuenta con n observaciones x_1, x_2, \ldots, x_n y media \overline{x}, la varianza se calcula usando la siguiente fórmula:

\dfrac{ (x_1 - \overline{x})^2 + (x_2 - \overline{x})^2 + \ldots + (x_n -  \overline{x})^2}{n}

Y si bien, podemos combinar las instrucciones anteriormente descritas para hacer este cálculo, este proceso puede resultar engorroso. Afortunadamente, R provee una instrucción específica para calcularla; si x es una variable definida por un vector que alberga valores numéricos, la sintaxis correspondiente es

var(x)

Considerando las variables salario y escolaridad que hemos definido anteriormente, podemos calcular la varianza de cada variable usando, de forma respectiva, las siguientes instrucciones

var(salario)
var(escolaridad)

Al ejecutar estas instrucciones, aparecerá de forma inmediata la siguiente información en la consola:

> var(salario)
[1] 8.759861
> var(escolaridad)
[1] 15.16667

R para introducir a la Econometría: paquetes, librerías e importación de datos.

Si bien R provee un lenguaje de programación para que sus usuarios puedan crear de la nada scripts para llevar a cabo tareas titánicas, una de las más grandes fortalezas que tiene este programa es que permite incorporar conjuntos de scripts e instrucciones prediseñadas por usuarios, desarrolladores y programadores que nos ahorran este trabajo.

También pudiera interesarte

Anuncios

Paquetes y Librerías

Las librerías son conjuntos de instrucciones que albergan scripts que pueden ser ejecutados con instrucciones inherentes de la librería, en general, estas vienen contenidas dentro de paquetes que deben ser preinstalados para poder usarlas.

Para instalaciar un paquete debemos usar la instrucción install.packages y la sintaxis correspondiente es

install.packages(nombre_del_paquete)

El uso de una librería se conoce como importar la librería y para esto debemos usar la instrucción library, cuya sintaxis correspondiente es

library(nombre_de_la_librería)

Veamos a continuación como hacer uso de una librería para llevar a cabo una de las tareas básicas si queremos hacer cualquier tipo de estudio estadístico.

Importar datos

Al trabajar con conjuntos de datos, hemos visto que podemos definir vectores que alberguen la información que necesitamos, sin embargo, esta tarea tiene a ser tediosa si el conjunto de datos es muy grande, por esta razón, surge la necesidad de importar una librería que nos permita definir conjuntos de datos con facilidad.

Los conjuntos de datos se encuentran almacenados en archivos con distintas extensiones, las más comunes son:

  • .txt, archivos que contienen texto plano.
  • .csv, archivos que contienen valores separados por comas (comma separated values en inglés)
  • .xls o .xlsx, archivos que definen una hoja de cálculo, por ejemplo, Hojas de EXCEL.

El paquete de librerías sugerido por La red integral de archivos R para trabajar con ciencia de datos es Tidyverse, y esta contiene la librería readxl que nos permitirá importar datos contenidos en hoja de cálculo. Para instalar este paquete, la sintaxis correspondiente es

install.packages("tidyverse")

Escribiendo esta instrucción en la consola, esto es lo que debería aparecer en su pantalla

Presionamos ENTER para ejecutar esta instrucción y empezar el proceso de instalación. En su pantalla debería aparecer:

Entre descargar e instalar, el proceso debería demorar alrededor de diez minutos con una velocidad de conexión de 4mbps y una vez que finaliza, muestra una lista de las librerías que se han instalado con el paquete y el espacio de memoria donde se han instalado:

Aunque si la conexión a internet es lenta, en un principio también se puede instalar la librería readxl directamente sin necesidad de instalar todo el paquete de librerías, la sintaxis correspondiente es

install.packages("readxl")

De esta forma, podemos usar la librería readxl, la sintaxis correspondiente es

library(readxl)

Consideremos un pequeño conjunto de datos, particularmente, los datos que se encuentran en la Tabla 3.2 del libro de Econometría de Damodar N. Gujarati and Dawn Porter en su quinta edición. Este conjunto de datos proporciona los datos primarios que se necesitan para estimar el efecto cuantitativo de la escolaridad en los salarios:

ObservaciónSalarioEscolaridad
14.45676
25.777
35.97878
47.33179
57.318210
66.584411
77.818212
87.835113
911.022314
1010.673815
1110.836116
1213.61517
1313.53118
Tabla 3.2

El archivo table-3_2.xlsx contiene la información de la Tabla 3.2, descárguelo haciendo click en el siguiente enlace:

Haciendo click en las propiedades del archivo, podemos observar la dirección donde se encuentra, el nombre y la extensión de este:

En este caso, lo he guardado en mi escritorio, así que el nombre completo del archivo es el siguiente:

C:\Users\Antho\Desktop\Table 3_2.xlsx

Una vez que hemos importado la librería readxl y descargado el archivo que contiene los datos con los que vamos a trabajar, podemos importarlos usando la instrucción read_excel cuya sintaxis es la siguiente

read_excel("dirección/nombre.extensión")

Entonces, la sintaxis para importar el archivo Table 3_2.xlsx es la siguiente:

read_excel("C:/Users/Antho/Desktop/Table 3_2.xlsx")

Al ejecutar esta instrucción se importan lo datos de forma inmediata y en su pantalla debería aparecer:

Nota: para ejecutar la instrucción, se debe cambiar la barra diagonal inversa «\» por la barra diagonal «/», esto es para evitar conflictos de código en el programa. Aparecerá el siguiente error:

Al importar nuestros datos, podemos almacenarlos directamente dentro de una variable para poder hace referencia a ellos con mayor facilidad. Supongamos que usamos la variable datos para guardar la información de la Tabla 3.2, entonces, usamos la siguiente sintáxis:

datos <- read_excel("C:/Users/Antho/Desktop/Table 3_2.xlsx")

En su pantalla debería aparecer:

Habiendo definido una variable para nuestro conjuntos de datos, podemos trabajar con cada una de las variables incluidas en los datos y para esto usamos el carácter «$» usando la siguiente sintaxis:

datos$variable

Por ejemplo, si queremos hacer referencia a la variable Salario del conjunto de datos, entonces usamos la siguiente sintaxis:

datos$Salario

Ejecutando esta instrucción, podemos ver la información contenida en la variable Salario de nuestro conjunto de datos, en el caso de la Tabla 3.2, en la consola aparecerá lo siguiente:

> datos$Salario
 [1]  4.4567  5.7700  5.9787  7.3317  7.3182  6.5844  7.8182  7.8351 11.0223 10.6738
[11] 10.8361 13.6150 13.5310

En su pantalla debería aparecer:

Si queremos calcular la media de la variable Salario usamos la siguiente sintaxis:

mean(datos$Salario)

Ejecutando esta instrucción, podemos la media de la variable Salario de nuestro conjunto de datos, en el caso de la Tabla 3.2, en la consola aparecerá lo siguiente:

> mean(datos$Salario)
[1] 8.674708

En su pantalla debería aparecer:

Si queremos calcular la varianza de la variable Salario usamos la siguiente sintaxis:

var(datos$Salario)

Ejecutando esta instrucción, podemos la varianza de la variable Salario de nuestro conjunto de datos, en el caso de la Tabla 3.2, en la consola aparecerá lo siguiente:

> var(datos$Salario)
[1] 8.759861

En su pantalla debería aparecer: