Ir al contenido principal

R 4.5 vs R 4.4.3

Cuando comparto con mis colegas, sobre todo de trabajo que es mi nicho profesional, acerca de porque tener las últimas versiones del software y que replico sobre todo por dos vertientes: mejor desempeño y funcionalidad del software, y la seguridad que pareciera que las empresas de software recomiendan los mismo o algo cercano a esto.

Por ejemplo, veamos lo que nos dice Oracle (dueño de Java) acerca de su versión 8 del Java SE.

 


En la tabla de la página de Oracle podemos observar las fechas en los cuales ya no habrá soporte para ciertas versiones de Java.

En este breve artículo veremos en el caso del interprete de R como se desempeña en una versión con respecto a la más reciente.

Los puestos de trabajo que se registran por los patrones en el IMSS ha sido una cifra que muestra el avance o retroceso de como se encuentra el empleo en nuestro país, en este caso diremos que en el sector formal.

Los microdatos oscilan arriba de los 20 millones y para su procesamiento es necesario o dividir el archivo o bien usar herramientas como Apache Spark.

En el pasado reciente se dio un taller sobre el uso del lenguaje  de programación en R y aquí ocurrió este caso de uso que se muestra a continuación.

Con un archivo sintético (con datos ficticios) para mostrar a los participantes que usando las funciones de R base no era posible cargar archivos tan grandes, en este caso usando read.csv(), se ejecutó el siguiente guion en dos equipos distintos con las versiones citadas en este artículo.

library(dplyr)

tiempoini <- proc.time()

dfptimss2020 <- read.csv("D:/DATOS/imss_puestosIMSS2020131_Ene.txt", sep = "|",
                         row.names = NULL)

numpuestosd <- dfptimss2020 %>% tally()

numpuestosd

proc.time() - tiempoini

En otras versiones de R, diferentes a estas, con este mismo tipo de archivos se habían podido cargar algo así como 17 millones de registros.

A continuación se muestra la salida que nos da en la versión 4.4.3




Se puede observar que se han cargado 13,139 registros, una cantidad muy por debajo de como se cargaban en la versiones anteriores de R. A continuación una vista de algunos de los casos que se alcanzaron a cargar en el dataframe.


A continuación se muestra la salida en la versión 4.5 (más actual al momento de escribir este artículo).


Aunque en esta ocasión la carga del archivo llevó más de 4 minutos casi pudo cargar los 21 millones de registros. Aquí una de las razones por las cuales es importante tener siempre el software más reciente, y en este caso las capacidades del equipo no interfieren porque inclusive donde se ejecuta la versión 4.4.3 es un equipo más robusto que en la portátil donde se corrió usando la versión 4.5.

Hasta el siguiente artículo. 

Miguel Araujo.






Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

 Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web  - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

REDATAM en Ubuntu (Linux)

 En un blog alterno, escribí sobre como migraba un "viejo" Intel i5 al sistema operativo Ubuntu en su versión más actual. Me comunique con mi gran colega Lenin de la CELADE en Chile, después de mucho tiempo, y le pedí me diera un pequeño resumen del "estado del arte" de REDATAM me dijo que todo marchaba bien, y pues ahora creo que tengo que actualizarme en contenedores pues el web server se encuentra ahí. Nos pusimos manos a la obra, el instalable desde la página no tiene ninguna extensión de archivo, asumí que era un ejecutable para Linux, no se si la página sufra ataques constantes ya que después quise volver a descargar sin éxito, la página estaba caida, sin embargo rescate el ejecutable anteriormente descargado. Últimamente primero hago y después documento, ya que con todo y mi compañero Deep,  no todo sale a la primera ni como lo dictan sus sugerencias, sobre todo en Linux y MacOS.  Por lo que, les muestro solo el resultado final de esta primera exploración, im...

El problema del gallo - otra vertiente de usar Python en RMarkdown con Posit RStudio

Cuando pensamos que ya se había cruzado el río, el buen gallo - mi amigo el Dany  Lara- no podía insertar código de Python  en un documento de RMarkdown  usando la versión de escritorio de Posit RStudio a pesar de las soluciones como instalar el Python y direccionarlo desde R con la biblioteca reticulate . Si bien se podía ejecutar código del interprete base, al querer correr usando módulos y con ello intentando instalar dichos módulos mandaba el siguiente mensaje: > py_install('matplotlib') Using virtual environment "D:/tu_usuario/Documents/.virtualenvs/r-reticulate" ... WARNING: Retrying (Retry(total=4, connect=None, read=None, redirect=None, status=None)) after connection broken by 'SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1006)'))': /simple/matplotlib/ WARNING: Retrying (Retry(total=3, connect=None, read=None, redirect=None, status=None)) a...