Aplicaciones para estadística

Entradas

Mostrando entradas de julio, 2021

Comparativa consultas a base de datos Oracle vs archivo de texto plano usando R-Spark-JDBC

julio 01, 2021

Podemos decir que a veces los pequeños cambios pueden provocar resultados muy favorables sobre todo en el desempeño de alguna tarea manual o automatizada y fiel a mi afiliación a la cultura pop :) recordé el filme del efecto mariposa. Pues bien empezamos a hacer pruebas con Apache Spark ya no con archivos de texto, sino con la conexión a base de datos que en pasados artículos ya habíamos platicado pero ahora con mediciones en los tiempos. Las primeras comparaciones fueron muy decepcionantes ya que usando la conexión a la base de datos de Oracle la realizaba un poco más de 10 veces más lento que consultando el mismo número de registros con un archivo de texto, la primer prueba muy básica y sencilla: un archivo de casi 18 millones de registros (17,953,202) consultados desde una tabla de una base de datos de Oracle contra el mismo número de renglones de un archivo de texto que realizará dicho conteo usando instrucciones dplyr . Sin embargo nuevamente el buen Edgar se fijó en el código q