Ir al contenido principal

Redatam multiplataforma para pruebas.

 Pues inicia un nuevo año y pues con novedades de nuevos cierres por la pandemia aunque con la ligera esperanza de que se menos letal que en los tiempos recientes.

Casi a finales del año el Instituto adquirió equipo de cómputo para usos geográficos con lo cual se desocuparon equipos Intel Core i7 de los que nuestra área fue beneficiada.

Por lo cual me di a la tarea de volver a hacer las pruebas ya solo en modo local, es decir las tres versiones de REDATAM y R con Spark.

Tuve algunos problemas con Spark y es que baje un JRE que parece no ser compatible con Spark porque lo que el consejo es que tomemos el de la página oficial de Oracle y con ello ya pude hacer la prueba.

En el tiempo que no podía correr Spark con R, me fui a instalar nuevamente la versión que el compañero Lenin Aguinaga me compartió, pero al momento de hacer la consulta, el sistema abortaba.

Debido a esto, fui a descargar las versiones de REDATAM disponibles con la grata sorpresa que los compañeros de la CEPAL ya publicaron las primeras versiones de prueba de REDATAM que por ahora no le han agregado la X en su página de descarga y solo le llaman multiplataforma.

https://redatam.org/es/aplicaciones



 Procedí a la instalación (versión 2.0Beta) y con grata sorpresa el cruce funcionó sin problemas.


 Inclusive la salida sale más formateada a la última prueba que se realizó.


Entonces sin más preámbulos comparto el resultado de este nuevo Bechmark con mi nuevo desktop del trabajo.

Estadística: Puestos de trabajo registrados ante el IMSS 2016.

Consulta: Cruce de mes de registro del puesto de trabajo contra sexo de la persona que ocupa el puesto de trabajo.

Número de registros o tuplas: 220, 816,117

Equipo donde se ejecutaron los procesos:

Marca y Modelo: DELL Optiplex 9020

Procesador: Intel CORE i7 a 3.6 GHz

Memoria RAM: 16GB


Software

Entorno de ejecución

Duración del proceso

Redatam 2.0 Beta

Standalone

15 segundos

R con Spark

Standalone

41 segundos

Redatam +SP V5

Standalone

66 segundos

Redatam 7

Standalone

77 segundos


Podemos observar que en el caso de las 2 versiones anteriores de REDATAM no tuvieron cambios pero en el caso del nuevo y R con Spark el cruce se realizó más rápido.

Por ahora vamos a seguir haciendo pruebas con el nuevo REDATAM y quizás moviendo la configuración de R con Spark pero seguimos teniendo muy buena velocidad de ejecución.

Concluyo deseando que tengan un excelente año 2022 lleno de éxitos y muy especialmente de salud.

Atte.

Miguel Araujo.



Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

 Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web  - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

La librería openxlsx

En el Instituto se utiliza como herramienta de trabajo institucional la suite de ofimática MS Office que ofrece un precio asequible aunque lo actual en el mundo del software es el esquema de suscripciones el que casi se ha convertido en el común de las empresas gigantes de las tecnologías de la información. Es por ello que si bien en un principio que se usaban las bibliotecas XLConnectJars   y XLConnect, al tratar de bajarlas e instalarlas se descubrió - en aquel entonces - que estaban obsoletas. Es por ello que se volteo a la que revisaremos superficialmente en este artículo. Lo primero como siempre es descargar la librería openxlsx que se puede hacer desde el mismo Posit RStudio. Vamos a recrear un cuadro existente en el sitio del Instituto que debido a la crisis sanitaria iniciada en 2020 cobra una relevancia muy importante: "Las principales causas de muerte" que de forma anecdótica   fue la primera aplicación en la cual me pidieron que participara, un programa escri...

R 4.5 vs R 4.4.3

Cuando comparto con mis colegas, sobre todo de trabajo que es mi nicho profesional, acerca de porque tener las últimas versiones del software y que replico sobre todo por dos vertientes: mejor desempeño y funcionalidad del software, y la seguridad que pareciera que las empresas de software recomiendan los mismo o algo cercano a esto. Por ejemplo, veamos lo que nos dice Oracle (dueño de Java) acerca de su versión 8 del Java SE.   En la tabla de la página de Oracle podemos observar las fechas en los cuales ya no habrá soporte para ciertas versiones de Java. En este breve artículo veremos en el caso del interprete de R como se desempeña en una versión con respecto a la más reciente. Los puestos de trabajo que se registran por los patrones en el IMSS ha sido una cifra que muestra el avance o retroceso de como se encuentra el empleo en nuestro país, en este caso diremos que en el sector formal. Los microdatos oscilan arriba de los 20 millones y para su procesamiento es necesario o divi...