Ir al contenido principal

R 4.5 vs R 4.4.3

Cuando comparto con mis colegas, sobre todo de trabajo que es mi nicho profesional, acerca de porque tener las últimas versiones del software y que replico sobre todo por dos vertientes: mejor desempeño y funcionalidad del software, y la seguridad que pareciera que las empresas de software recomiendan los mismo o algo cercano a esto.

Por ejemplo, veamos lo que nos dice Oracle (dueño de Java) acerca de su versión 8 del Java SE.

 


En la tabla de la página de Oracle podemos observar las fechas en los cuales ya no habrá soporte para ciertas versiones de Java.

En este breve artículo veremos en el caso del interprete de R como se desempeña en una versión con respecto a la más reciente.

Los puestos de trabajo que se registran por los patrones en el IMSS ha sido una cifra que muestra el avance o retroceso de como se encuentra el empleo en nuestro país, en este caso diremos que en el sector formal.

Los microdatos oscilan arriba de los 20 millones y para su procesamiento es necesario o dividir el archivo o bien usar herramientas como Apache Spark.

En el pasado reciente se dio un taller sobre el uso del lenguaje  de programación en R y aquí ocurrió este caso de uso que se muestra a continuación.

Con un archivo sintético (con datos ficticios) para mostrar a los participantes que usando las funciones de R base no era posible cargar archivos tan grandes, en este caso usando read.csv(), se ejecutó el siguiente guion en dos equipos distintos con las versiones citadas en este artículo.

library(dplyr)

tiempoini <- proc.time()

dfptimss2020 <- read.csv("D:/DATOS/imss_puestosIMSS2020131_Ene.txt", sep = "|",
                         row.names = NULL)

numpuestosd <- dfptimss2020 %>% tally()

numpuestosd

proc.time() - tiempoini

En otras versiones de R, diferentes a estas, con este mismo tipo de archivos se habían podido cargar algo así como 17 millones de registros.

A continuación se muestra la salida que nos da en la versión 4.4.3




Se puede observar que se han cargado 13,139 registros, una cantidad muy por debajo de como se cargaban en la versiones anteriores de R. A continuación una vista de algunos de los casos que se alcanzaron a cargar en el dataframe.


A continuación se muestra la salida en la versión 4.5 (más actual al momento de escribir este artículo).


Aunque en esta ocasión la carga del archivo llevó más de 4 minutos casi pudo cargar los 21 millones de registros. Aquí una de las razones por las cuales es importante tener siempre el software más reciente, y en este caso las capacidades del equipo no interfieren porque inclusive donde se ejecuta la versión 4.4.3 es un equipo más robusto que en la portátil donde se corrió usando la versión 4.5.

Hasta el siguiente artículo. 

Miguel Araujo.






Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

 Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web  - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

La librería openxlsx

En el Instituto se utiliza como herramienta de trabajo institucional la suite de ofimática MS Office que ofrece un precio asequible aunque lo actual en el mundo del software es el esquema de suscripciones el que casi se ha convertido en el común de las empresas gigantes de las tecnologías de la información. Es por ello que si bien en un principio que se usaban las bibliotecas XLConnectJars   y XLConnect, al tratar de bajarlas e instalarlas se descubrió - en aquel entonces - que estaban obsoletas. Es por ello que se volteo a la que revisaremos superficialmente en este artículo. Lo primero como siempre es descargar la librería openxlsx que se puede hacer desde el mismo Posit RStudio. Vamos a recrear un cuadro existente en el sitio del Instituto que debido a la crisis sanitaria iniciada en 2020 cobra una relevancia muy importante: "Las principales causas de muerte" que de forma anecdótica   fue la primera aplicación en la cual me pidieron que participara, un programa escri...