R 4.5 vs R 4.4.3
Cuando comparto con mis colegas, sobre todo de trabajo que es mi nicho profesional, acerca de porque tener las últimas versiones del software y que replico sobre todo por dos vertientes: mejor desempeño y funcionalidad del software, y la seguridad que pareciera que las empresas de software recomiendan los mismo o algo cercano a esto.
Por ejemplo, veamos lo que nos dice Oracle (dueño de Java) acerca de su versión 8 del Java SE.
En la tabla de la página de Oracle podemos observar las fechas en los cuales ya no habrá soporte para ciertas versiones de Java.
En este breve artículo veremos en el caso del interprete de R como se desempeña en una versión con respecto a la más reciente.
Los puestos de trabajo que se registran por los patrones en el IMSS ha sido una cifra que muestra el avance o retroceso de como se encuentra el empleo en nuestro país, en este caso diremos que en el sector formal.
Los microdatos oscilan arriba de los 20 millones y para su procesamiento es necesario o dividir el archivo o bien usar herramientas como Apache Spark.
En el pasado reciente se dio un taller sobre el uso del lenguaje de programación en R y aquí ocurrió este caso de uso que se muestra a continuación.
Con un archivo sintético (con datos ficticios) para mostrar a los participantes que usando las funciones de R base no era posible cargar archivos tan grandes, en este caso usando read.csv(), se ejecutó el siguiente guion en dos equipos distintos con las versiones citadas en este artículo.
En otras versiones de R, diferentes a estas, con este mismo tipo de archivos se habían podido cargar algo así como 17 millones de registros.
A continuación se muestra la salida que nos da en la versión 4.4.3
Se puede observar que se han cargado 13,139 registros, una cantidad muy por debajo de como se cargaban en la versiones anteriores de R. A continuación una vista de algunos de los casos que se alcanzaron a cargar en el dataframe.
A continuación se muestra la salida en la versión 4.5 (más actual al momento de escribir este artículo).
Aunque en esta ocasión la carga del archivo llevó más de 4 minutos casi pudo cargar los 21 millones de registros. Aquí una de las razones por las cuales es importante tener siempre el software más reciente, y en este caso las capacidades del equipo no interfieren porque inclusive donde se ejecuta la versión 4.4.3 es un equipo más robusto que en la portátil donde se corrió usando la versión 4.5.
Hasta el siguiente artículo.
Miguel Araujo.
Comentarios
Publicar un comentario