Ir al contenido principal

REDATAM saca el pecho con su versión X

El jueves publiqué el artículo referente a los tiempos de las herramientas informáticas para la explotación de datos donde se concluye que con una computadora con más poder de procesamiento R usando Spark es quien obtuvo el menor tiempo para el cruce en este estudio. El viernes santo recibí un correo electrónico de Lenin Aguinaga donde aparte de darme su opinión sobre la comparación en cuestión, nos compartía una primicia, un regalo de pascuas.

La verdad me he sentido muy halagado y honrado ante tal gentileza de nuestro amigo de Chile, ya que esta versión aun no se ha dado la luz en los sitios oficiales de la CEPAL/CELADE.

Así que el día de hoy sin más preámbulos me puse a instalar esta nueva versión alfa de REDATAM X donde después de algunos tumbos que me ayudó a resolver Lenin, hicimos la prueba del mismo cruce quedando nuevamente sorprendido de la velocidad de nuestra querida herramienta. ¡¡22 segundos!!


Como dije es una versión preliminar por ello los datos se presentan en forma exponencial además que en algunas ocasiones la aplicación abortaba pero lo importante es que sorprendentemente superó a Apache Spark.

Reitero que el lenguaje R es nuestra herramienta por excelencia y tiene un sin fin de funcionalidades, sin embargo el hecho de investigar herramientas alternativas es porque no todos los usuarios de los institutos de estadística nacionales tienen formación orientada a la programación o áreas de conocimiento afines; es por ello que herramientas como REDATAM les pueden dar soluciones a demandas de información cotidianas.

Sin embargo percibo que en nuestro país hemos dejado de lado este software y se ha optado por soluciones comerciales tales como SPSS, STATA, SAS por mencionar algunas y no nos hemos dado a la tarea de seguir generando bases de datos para consulta de la mayoría de nuestros usuarios.

Por tal motivo actualizando mi lista de contactos relacionados con REDATAM - muchas personas que trabajaban y se interesaban ya no están en el Instituto - y a los cuales les comparto mis artículos hoy se ha reducido a 2 personas sintiéndome algo así como que somos los últimos Jedis 😀👽.

Por último y concluyendo; ante tales resultados de desempeño, facilidad de uso, cero costos de licenciamiento y un conjunto de potencialidades que no les he mostrado y en algunos casos aun no conozco o no he explorado, me salta el siguiente cuestionamiento: ¿no valdrá la pena volver la vista  a REDATAM?

Dejo por último la tabla comparativa que llenará de orgullo a Lenin y a su equipo.

Estadística: Puestos de trabajo registrados ante el IMSS 2016.

Consulta: Cruce de mes de registro del puesto de trabajo contra sexo de la persona que ocupa el puesto de trabajo.

Número de registros o tuplas: 220, 816,117

Equipo donde se ejecutaron los procesos:

Marca y Modelo: DELL Optiplex 9020

Procesador: Intel CORE i5 a 3.5 GHz

Memoria RAM: 16GB

Software

Entorno de ejecución

Duración del proceso

Redatam X Alpha

Standalone

22 segundos

R con Spark

Standalone

60 segundos

Redatam +SP V5

Standalone 66 segundos

Redatam 7

Standalone

77 segundos

Oracle 12c

Acceso VPN ejecución en el Instituto

96 segundos

Seguimos leyéndonos.

Atte.

Miguel Araujo.


Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

 Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web  - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

REDATAM en Ubuntu (Linux)

 En un blog alterno, escribí sobre como migraba un "viejo" Intel i5 al sistema operativo Ubuntu en su versión más actual. Me comunique con mi gran colega Lenin de la CELADE en Chile, después de mucho tiempo, y le pedí me diera un pequeño resumen del "estado del arte" de REDATAM me dijo que todo marchaba bien, y pues ahora creo que tengo que actualizarme en contenedores pues el web server se encuentra ahí. Nos pusimos manos a la obra, el instalable desde la página no tiene ninguna extensión de archivo, asumí que era un ejecutable para Linux, no se si la página sufra ataques constantes ya que después quise volver a descargar sin éxito, la página estaba caida, sin embargo rescate el ejecutable anteriormente descargado. Últimamente primero hago y después documento, ya que con todo y mi compañero Deep,  no todo sale a la primera ni como lo dictan sus sugerencias, sobre todo en Linux y MacOS.  Por lo que, les muestro solo el resultado final de esta primera exploración, im...

El problema del gallo - otra vertiente de usar Python en RMarkdown con Posit RStudio

Cuando pensamos que ya se había cruzado el río, el buen gallo - mi amigo el Dany  Lara- no podía insertar código de Python  en un documento de RMarkdown  usando la versión de escritorio de Posit RStudio a pesar de las soluciones como instalar el Python y direccionarlo desde R con la biblioteca reticulate . Si bien se podía ejecutar código del interprete base, al querer correr usando módulos y con ello intentando instalar dichos módulos mandaba el siguiente mensaje: > py_install('matplotlib') Using virtual environment "D:/tu_usuario/Documents/.virtualenvs/r-reticulate" ... WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1006)'))': /simple/matplotlib/ WARNING: Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) a...