Ir al contenido principal

Paquete dplyr de R, quizás el sql de los matemáticos

 En los primeros cursos de R, me llamaba la atención de como utilizar herramientas para las consultas a los datos, algún símil de lo que hace SQL, o lo que se hace usando los menús de SPSS, STATA o REDATAM.

En mi anterior área donde hay más informáticos que matemáticos lo que hacíamos era que el motor dejara los conjuntos de datos listos para que R procesara - en nuestro caso - los cálculos usando el paquete estadístico survey ya que estábamos en el ámbito de las encuestas.

En este caso donde la mayoría de mis compañeros son matemáticos, R es el estandarte y en estos días de aprendizaje no lo hace nada mal.

Una de las cosas por las que me fui en esta ocasión por R es tratar de ponerme al corriente con mis compañeros porque bien lo pude haber hecho en otro lenguaje o motor de base de datos pero es necesario ya conocer o hacer lo que puedo con otras herramientas, ahora con R.




También algo genial es la velocidad con la que se cargan los archivos para el caso de objetos de Spark, pero esto lo abordaré en otro post.

Lo que buscaba era hacer comparativo de puestos de trabajo que reporta el IMSS en su sitio de datos abiertos, el archivo que se descarga consta de más de 4 millones de registros.

Como bien saben para hacer este tipo de estudios es necesario conocer de menos el diccionario de datos o lo que gracias a nuestro lenguaje ancestral de programación COBOL, le llamamos FD (File Description) para saber como se obtienen las cifras ya que debido al país que es México, 4 millones de empleos hablando de períodos de referencia mensuales no son suficientes para satisfacer la demanda de la población económicamente activa.

Para este ejercicio usé los puestos de trabajo como referencia al 31 de agosto del 2017 archivo que se encuentra en la siguiente dirección y el diccionario de datos en este enlace.

Los archivos de datos son CSV y un archivo de MS Excel es el diccionario de datos. Para empezar tenemos que cargar los datos y debido a la extensión de los mismos, reitero que usar Spark es increible la velocidad conque se cargan los datos a su dataset, para los colegas de TICs es muy buena opción el instalar también el paquete DBI que permite hacer consultas estilo SQL.

Entonces primero cargamos las librerías y con ellas el archivo.

library("sparklyr")

library("dplyr")

library("DBI")

setwd("rutadetrabajo/")

sc <- spark_connect(master = "local")

imss201708 <- spark_read_csv(sc, name = "imss201708",

                             path = "rutatrabajo/asg-2017-08-31.csv",

                              delimiter = "|", header=TRUE, overwrite=TRUE)

Como se trata de un archivo CSV se usa spark_read_csv, el delimitador es un padline (|), los archivos tienen cabecero y en caso de que ya exista el objeto Spark, se sobreescriba.

Hice mi primer prueba de tiempo y los 4 millones de registros los cargo en 24 segundos!!

Y aquí surge nuestra primera inquietud. ¿Cuántos registros (tuplas) tiene este dataset?. Los informáticos decimos que un select count(*) from tabla

Para R o específicamente dplyr usamos estás 2 formas:

count(imss201708)

n <- imss201708 %>% summarise(n())

En SQL usando el paquete DBI (el cual se tiene que instalar previamente) la instrucción sería:

nsql <- dbGetQuery(sc, "select count(*) from imss201708")

Que nos da como resultado 4,592,365, o sea que no son 4 millones sino 4.5 millones para ser exactos.

Revisando la información del diccionario de datos ( y usando un poco de intuición) para calcular el número de puestos de trabajo asegurados al IMSS hay que sumar el contenido de una columna la cual es asegurados (como el factor  de expansión en una encuesta). 

Nuevamente usamos el verbo summarise de dplyr pero ponemos el nombre de la columna.

puestos_trab_total <- imss201708 %>%  summarise(ptos_trab_total=sum(asegurados, na.rm = TRUE)) 

En SQL sería:

puestos_trab_total_sql <- dbGetQuery(sc, "select sum(asegurados) from imss201708")

Que nos da como resultado 26,437,477 puestos de trabajo asegurados al IMSS.

Ahora la solicitud era que ahora esta información se desplegará por entidad federativa, para lo cual vamos a agregar dos verbos más que son group_by y arrange, este último lo agregué ya que la consulta salía desordenada.

puestos_trab_por_ent <- imss201708 %>% group_by(cve_entidad) %>% summarise(aseg=sum(asegurados, na.rm = TRUE)) %>% arrange(cve_entidad)

SQL

puestos_trab_por_ent_sql <- dbGetQuery(sc, "select sum(asegurados) from imss201708 group by cve_entidad")

Como se puede observar aquí no es necesario poner la clausula de order by para que el resultado salga ordenado.






Y bueno por ahora hasta aquí dejamos esta entrega del paquete dplyr que seguiremos abordando en próximos artículos, por ahora creo que esta forma ayuda a los que tenemos perfil de TICs a entender mejor este paquete de R, la verdad tanto con este paquete como con el DBI, las consultas las hace muy rápidas.

Seguimos en contacto.
Atte.
Miguel Araujo 










Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

 Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web  - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

La librería openxlsx

En el Instituto se utiliza como herramienta de trabajo institucional la suite de ofimática MS Office que ofrece un precio asequible aunque lo actual en el mundo del software es el esquema de suscripciones el que casi se ha convertido en el común de las empresas gigantes de las tecnologías de la información. Es por ello que si bien en un principio que se usaban las bibliotecas XLConnectJars   y XLConnect, al tratar de bajarlas e instalarlas se descubrió - en aquel entonces - que estaban obsoletas. Es por ello que se volteo a la que revisaremos superficialmente en este artículo. Lo primero como siempre es descargar la librería openxlsx que se puede hacer desde el mismo Posit RStudio. Vamos a recrear un cuadro existente en el sitio del Instituto que debido a la crisis sanitaria iniciada en 2020 cobra una relevancia muy importante: "Las principales causas de muerte" que de forma anecdótica   fue la primera aplicación en la cual me pidieron que participara, un programa escri...

R 4.5 vs R 4.4.3

Cuando comparto con mis colegas, sobre todo de trabajo que es mi nicho profesional, acerca de porque tener las últimas versiones del software y que replico sobre todo por dos vertientes: mejor desempeño y funcionalidad del software, y la seguridad que pareciera que las empresas de software recomiendan los mismo o algo cercano a esto. Por ejemplo, veamos lo que nos dice Oracle (dueño de Java) acerca de su versión 8 del Java SE.   En la tabla de la página de Oracle podemos observar las fechas en los cuales ya no habrá soporte para ciertas versiones de Java. En este breve artículo veremos en el caso del interprete de R como se desempeña en una versión con respecto a la más reciente. Los puestos de trabajo que se registran por los patrones en el IMSS ha sido una cifra que muestra el avance o retroceso de como se encuentra el empleo en nuestro país, en este caso diremos que en el sector formal. Los microdatos oscilan arriba de los 20 millones y para su procesamiento es necesario o divi...