Ir al contenido principal

Comparativa consultas a base de datos Oracle vs archivo de texto plano usando R-Spark-JDBC

Podemos decir que a veces los pequeños cambios pueden provocar resultados muy favorables sobre todo en el desempeño de alguna tarea manual o automatizada y fiel a mi afiliación a la cultura pop :) recordé el filme del efecto mariposa.

Pues bien empezamos a hacer pruebas con Apache Spark ya no con archivos de texto, sino con la conexión a base de datos que en pasados artículos ya habíamos platicado pero ahora con mediciones en los tiempos.

Las primeras comparaciones fueron muy decepcionantes ya que usando la conexión a la base de datos de Oracle la realizaba un poco más de 10 veces más lento que consultando el mismo número de registros con un archivo de texto, la primer prueba muy básica y sencilla: un archivo de  casi 18 millones de registros (17,953,202) consultados desde una tabla de una base de datos de Oracle contra el mismo número de renglones de un archivo de texto que realizará dicho conteo usando instrucciones dplyr.

Sin embargo nuevamente el buen Edgar se fijó en el código que había investigado y le llamó la atención un atributo en FALSE, el de memory.

test_qry <- sparklyr::spark_read_jdbc(

  sc = connspark,

  name = "tpuestos",

  options = jdbcConnectionOpts,

  memory = TRUE

)

Por lo que ahora al hacer la prueba los resultados ya son muy similares en los tiempos porque de acuerdo a lo investigado Apache Spark puede utilizar todos los recursos del equipo donde se ejecuta (memoria en disco y RAM) inclusive los servicios a los que se conecta como el ancho de banda de la red.

Dejo aquí código de ambos scripts de R y sus resultados.

Archivo de texto (CSV)

Podemos observar que para la carga del archivo CSV se realizó casi en 56 segundos mientras que la consulta la realizó en menos de 1 segundo (0.81)


En este código no viene el atributo memory por lo que por omisión queda en TRUE.

Base de datos de Oracle


Podemos observar que para la carga de la tabla en el dataset de Apache Spark se realizó casi en 40 segundos mientras que la consulta la realizó al igual que el archivo csv en menos de 1 segundo (0.7)

Una de las cosas que notó el compañero era la ausencia de una de las pestañas del monitor web de Spark (Storage) y fue como se dedujo que había que cambiar dicho atributo.

Por lo que, el esquema de consultar la información desde una base de datos versus un archivo de texto resulta más adecuada por todas las ventajas que tiene el usar un motor de base de datos robusto como lo es Oracle.

Hasta aquí el resultado de este Bechmark, y en breve si todo va bien dejaré por aquí la instalación de un cluster de Spark usando Yarn, esto con la venía del creador del tutorial en vídeo Joshua Hruzik, hasta otro artículo.

Atte.
Miguel Araujo.
Nuevamente se agradece el aporte del compañero Edgar Soriano para la realización de este bechmark.

Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

 Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web  - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

La librería openxlsx

En el Instituto se utiliza como herramienta de trabajo institucional la suite de ofimática MS Office que ofrece un precio asequible aunque lo actual en el mundo del software es el esquema de suscripciones el que casi se ha convertido en el común de las empresas gigantes de las tecnologías de la información. Es por ello que si bien en un principio que se usaban las bibliotecas XLConnectJars   y XLConnect, al tratar de bajarlas e instalarlas se descubrió - en aquel entonces - que estaban obsoletas. Es por ello que se volteo a la que revisaremos superficialmente en este artículo. Lo primero como siempre es descargar la librería openxlsx que se puede hacer desde el mismo Posit RStudio. Vamos a recrear un cuadro existente en el sitio del Instituto que debido a la crisis sanitaria iniciada en 2020 cobra una relevancia muy importante: "Las principales causas de muerte" que de forma anecdótica   fue la primera aplicación en la cual me pidieron que participara, un programa escri...

R 1a Parte

En nuestro Instituto durante años se ha utilizado diversas herramientas para el procesamiento de información de acuerdo a las necesidades y también al expertise del personal. En tiempos de austeridad republicana las herramientas de software libre sin duda tomarán más importancia en las áreas de estadística del Instituto y si agregamos que cuentan con la venía de nuestro emperador hemos empezado a transitar por este camino. En su sitio oficial  se define como "R es un software gratuito para cómputo estadístico y gráficos. Compila y se ejecuta en múltiples plataformas de UNIX, Windows y MacOS". Llevo un par de cursos referentes a este lenguaje de programación que de hecho en la clasificación de los lenguajes en un principio era catalogado como funcional, ahora si revisamos Wikipedia aparece como multi-paradigma, aunque los principios de programación son los mismos tiene características muy especiales que intuyo vienen del calculo vectorial.