Ir al contenido principal

Librería de REDATAM para R

 Introducción.

En el segundo año de la pandemia (tomando como referencia que en marzo de 2020 se decidió a nivel mundial el confinamiento masivo), en mayo del 2021, tuvimos una reunión con el equipo de REDATAM, la DAERAS y algunos invitados, los compañeros de la CELADE encabezados por Lenin Aguinaga dejaron una agradable impresión, aunque en el Instituto seguimos ajenos a este software gratuito y muy destacado debido a la velocidad con la que hace las consultas.

En los últimos años una gran cantidad de compañeros se han incorporado al Instituto con un perfil matemático, que los hace fuertes candidatos a integrar y migrar sus conocimientos al campo de la ciencia de datos.

Junto con nuestros compañeros, y también debido al auge de la profesión más sexi del siglo 21 – el científico de datos - (según el artículo de Davenport y Patil del 2012), el lenguaje de programación R ha empezado a poblar de líneas de código los ordenadores de nuestro Instituto.

Es por ello que traer la velocidad de las bases de datos REDATAM a este nicho de programadores, quisiéramos pensar que se vuelve atractivo para nuestros profesionales referidos.

No se había podido probar dicha librería hasta que nuevamente parece que REDATAM vuelve a tomar escenarios al menos como una novedad debido a como se menciona anteriormente la velocidad de procesamiento no es para nada despreciable, sobre todo la versión X, que se esta probando y liberando en los tiempos que se escribe este artículo.

Hasta ahora las pruebas con REDATAM X han sido sorprendentes y como mencione han llamado la atención de los colegas del Instituto.

En otro orden de ideas, el trabajar con esta maravillosa herramienta y buscar posicionarla en el lugar que merece, es un tipo de homenaje a mi compañero y amigo Mario Becerril González, que hicimos un gran equipo en el tema de las bases de datos de REDATAM.

La velocidad de REDATAM y los datos sintéticos.

Este año en particular REDATAM X ha sido disruptivo, ya que a la par del proyecto de lago de datos para manejar grandes volúmenes de información pensando en usuarios que aun no han entrado a lenguajes de programación como Python o R, se creo una base de datos en REDATAM con datos sintéticos de la estadística de puestos de trabajo registrados por los patrones ante el Instituto Mexicano del Seguro Social que hasta el momento que se escribe esto, el conjunto de datos tiene más de 100 millones de registros.

“A nivel conceptual, los datos sintéticos no son datos reales pero que se han generado a partir de datos reales y que tienen las mismas propiedades estadísticas que los datos reales” (El Emam, 2020)

Debido a que estos datos son confidenciales, los datos sintéticos resultaron ser la mejor opción para probar las herramientas para el procesamiento de información de grandes volúmenes de información.

REDATAM X está en constante evolución y cada vez se agregan nuevas funcionalidades, de hecho, en el caso de Windows ya se cuenta con una versión portable.




Aunque en un post anterior, se hizo una prueba de velocidad con más de 200 millones de registros, vamos a hacer una más con la versión de mayo, usando este conjunto de datos sintético.




El proceso tarda poco más de 3 segundos, e inmediatamente se presenta el resultado, en este caso son poco más de 100 millones de registros.



Como se puede observar, la interfaz muestra ya cambios, y poco a poco se acerca a la versión estable de REDATAM 7.

Librería de REDATAM para R.

Entre los recursos que tiene la página redatam.org, desde inicios de este año esta la librería de REDATAM para R, la cual descargamos para hacer pruebas.


Instalación de la librería de REDATAM en RStudio.

En RStudio vamos a la opción de Tools-Install Packages y en esta ocasión en el combo Install from, elegimos la opción Package Archive File y se elige el archivo de la descarga de la página de REDATAM (archivo .zip).


Una vez elegido el archivo se procede a instalar.

Al terminar de instalar se manda una advertencia, que dice que son necesarias las RTools, por lo que de la página oficial de esta utilería para R, se descargó la versión 4.3 y se instaló. Nuevamente se procedió a instalar la librería. Otra vez se manda un error que indica que es necesario el paquete Rcpp, por lo que también se instala desde CRAN y ahora si al invocar la librería se despliega un mensaje que la librería se cargó.

Al cargarse la librería, del lado derecho podemos observar la ayuda y la forma en cómo usar la librería.

Por último, hacemos código R, usando la librería, en donde se lee el diccionario, se ejecuta una instrucción de REDATAM que deja el resultado en un dataframe y finalmente se cierra la base de datos.



A R usando la librería de REDATAM le llevó 3 segundos y unas centésimas el hacer esta consulta. La instrucción para sacar la frecuencia de la variable MESREG es código propio de REDATAM.

Hasta aquí este post, ya queda a la iniciativa e imaginación de esta combinación de herramientas.

Miguel Araujo.

Bibliografía

El Emam, K. (2020). AI with Synthetic Data. Estados Unidos de América: O'Reilly Media, Inc.

 


Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

 Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web  - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

La librería openxlsx

En el Instituto se utiliza como herramienta de trabajo institucional la suite de ofimática MS Office que ofrece un precio asequible aunque lo actual en el mundo del software es el esquema de suscripciones el que casi se ha convertido en el común de las empresas gigantes de las tecnologías de la información. Es por ello que si bien en un principio que se usaban las bibliotecas XLConnectJars   y XLConnect, al tratar de bajarlas e instalarlas se descubrió - en aquel entonces - que estaban obsoletas. Es por ello que se volteo a la que revisaremos superficialmente en este artículo. Lo primero como siempre es descargar la librería openxlsx que se puede hacer desde el mismo Posit RStudio. Vamos a recrear un cuadro existente en el sitio del Instituto que debido a la crisis sanitaria iniciada en 2020 cobra una relevancia muy importante: "Las principales causas de muerte" que de forma anecdótica   fue la primera aplicación en la cual me pidieron que participara, un programa escri...

R 4.5 vs R 4.4.3

Cuando comparto con mis colegas, sobre todo de trabajo que es mi nicho profesional, acerca de porque tener las últimas versiones del software y que replico sobre todo por dos vertientes: mejor desempeño y funcionalidad del software, y la seguridad que pareciera que las empresas de software recomiendan los mismo o algo cercano a esto. Por ejemplo, veamos lo que nos dice Oracle (dueño de Java) acerca de su versión 8 del Java SE.   En la tabla de la página de Oracle podemos observar las fechas en los cuales ya no habrá soporte para ciertas versiones de Java. En este breve artículo veremos en el caso del interprete de R como se desempeña en una versión con respecto a la más reciente. Los puestos de trabajo que se registran por los patrones en el IMSS ha sido una cifra que muestra el avance o retroceso de como se encuentra el empleo en nuestro país, en este caso diremos que en el sector formal. Los microdatos oscilan arriba de los 20 millones y para su procesamiento es necesario o divi...