Librería de REDATAM para R
Introducción.
En el
segundo año de la pandemia (tomando como referencia que en marzo de 2020 se
decidió a nivel mundial el confinamiento masivo), en mayo del 2021, tuvimos una
reunión con el equipo de REDATAM, la DAERAS y algunos invitados, los compañeros
de la CELADE encabezados por Lenin Aguinaga dejaron una agradable impresión,
aunque en el Instituto seguimos ajenos a este software gratuito y muy destacado
debido a la velocidad con la que hace las consultas.
En
los últimos años una gran cantidad de compañeros se han incorporado al
Instituto con un perfil matemático, que los hace fuertes candidatos a integrar
y migrar sus conocimientos al campo de la ciencia de datos.
Junto
con nuestros compañeros, y también debido al auge de la profesión más sexi
del siglo 21 – el científico de datos - (según el artículo de Davenport y
Patil del 2012), el lenguaje de programación R ha empezado a poblar de líneas
de código los ordenadores de nuestro Instituto.
Es
por ello que traer la velocidad de las bases de datos REDATAM a este nicho de
programadores, quisiéramos pensar que se vuelve atractivo para nuestros
profesionales referidos.
No se
había podido probar dicha librería hasta que nuevamente parece que REDATAM
vuelve a tomar escenarios al menos como una novedad debido a como se menciona
anteriormente la velocidad de procesamiento no es para nada despreciable, sobre
todo la versión X, que se esta probando y liberando en los tiempos que se
escribe este artículo.
Hasta
ahora las pruebas con REDATAM X han sido sorprendentes y como mencione han
llamado la atención de los colegas del Instituto.
En
otro orden de ideas, el trabajar con esta maravillosa herramienta y buscar
posicionarla en el lugar que merece, es un tipo de homenaje a mi compañero y
amigo Mario Becerril González, que hicimos un gran equipo en el tema de las
bases de datos de REDATAM.
La velocidad de REDATAM y los datos sintéticos.
Este
año en particular REDATAM X ha sido disruptivo, ya que a la par del proyecto de
lago de datos para manejar grandes volúmenes de información pensando en
usuarios que aun no han entrado a lenguajes de programación como Python o R, se
creo una base de datos en REDATAM con datos sintéticos de la estadística de
puestos de trabajo registrados por los patrones ante el Instituto Mexicano del
Seguro Social que hasta el momento que se escribe esto, el conjunto de datos tiene
más de 100 millones de registros.
“A
nivel conceptual, los datos sintéticos no son datos reales pero que se han
generado a partir de datos reales y que tienen las mismas propiedades
estadísticas que los datos reales”
Debido
a que estos datos son confidenciales, los datos sintéticos resultaron ser la
mejor opción para probar las herramientas para el procesamiento de información de
grandes volúmenes de información.
REDATAM
X está en constante evolución y cada vez se agregan nuevas funcionalidades, de
hecho, en el caso de Windows ya se cuenta con una versión portable.
Aunque
en un post anterior, se hizo una prueba de velocidad con más de 200 millones de
registros, vamos a hacer una más con la versión de mayo, usando este conjunto
de datos sintético.
El
proceso tarda poco más de 3 segundos, e inmediatamente se presenta el
resultado, en este caso son poco más de 100 millones de registros.
Como
se puede observar, la interfaz muestra ya cambios, y poco a poco se acerca a la
versión estable de REDATAM 7.
Librería
de REDATAM para R.
Entre
los recursos que tiene la página redatam.org, desde inicios de este año esta la
librería de REDATAM para R, la cual descargamos para hacer pruebas.
Instalación
de la librería de REDATAM en RStudio.
En RStudio
vamos a la opción de Tools-Install Packages y en esta ocasión en el
combo Install from, elegimos la opción Package Archive File y se
elige el archivo de la descarga de la página de REDATAM (archivo .zip).
Una
vez elegido el archivo se procede a instalar.
Al
terminar de instalar se manda una advertencia, que dice que son necesarias las
RTools, por lo que de la página oficial de esta utilería para R, se descargó la versión 4.3 y se
instaló. Nuevamente se procedió a instalar la librería. Otra vez se manda un
error que indica que es necesario el paquete Rcpp, por lo que también se instala desde
CRAN y ahora si al invocar la librería se despliega un mensaje que la librería
se cargó.
Al
cargarse la librería, del lado derecho podemos observar la ayuda y la forma en cómo
usar la librería.
Por
último, hacemos código R, usando la librería, en donde se lee el diccionario,
se ejecuta una instrucción de REDATAM que deja el resultado en un dataframe y finalmente
se cierra la base de datos.
A R usando la librería de REDATAM le llevó 3 segundos y unas centésimas el hacer esta consulta. La
instrucción para sacar la frecuencia de la variable MESREG es código propio de
REDATAM.
Hasta
aquí este post, ya queda a la iniciativa e imaginación de esta combinación de
herramientas.
Miguel Araujo.
Bibliografía
El
Emam, K. (2020). AI with Synthetic Data. Estados Unidos de América: O'Reilly
Media, Inc.
Comentarios
Publicar un comentario