Entradas

Mostrando entradas de noviembre, 2020

Paquete dplyr de R, quizás el sql de los matemáticos

Imagen
 En los primeros cursos de R , me llamaba la atención de como utilizar herramientas para las consultas a los datos, algún símil de lo que hace SQL , o lo que se hace usando los menús de SPSS , STATA o REDATAM . En mi anterior área donde hay más informáticos que matemáticos lo que hacíamos era que el motor dejara los conjuntos de datos listos para que R procesara - en nuestro caso - los cálculos usando el paquete estadístico survey ya que estábamos en el ámbito de las encuestas. En este caso donde la mayoría de mis compañeros son matemáticos, R es el estandarte y en estos días de aprendizaje no lo hace nada mal. Una de las cosas por las que me fui en esta ocasión por R es tratar de ponerme al corriente con mis compañeros porque bien lo pude haber hecho en otro lenguaje o motor de base de datos pero es necesario ya conocer o hacer lo que puedo con otras herramientas, ahora con R .

Spark para conectar con bases de datos vía JDBC

Imagen
 En mis primeras andadas en lo referente al paquete sparklyr , para este tema en especial, lo que se pretende es usar la librería de JDBC para que este sea el medio de conexión y ese conjunto de datos (dataset) que se extrae, sea manipulado por Spark con todas las ventajas que tiene el paquete como ya lo he descrito en los artículos anteriores. Me base en tres posts que vienen la final de este artículo. En primera instancia utilice el conector JDBC para Oracle ( ojdbc7.jar ) y pues funcionó sin problemas, vamos con la fórmula. 1- Se cargan las librerías. library("sparklyr") library("RJDBC") 2- Se carga la configuración de Spark , para después agregar la ruta y nombre del conector JDBC. ## Spark config <- spark_config() ## Tell config location of oracle jar config[["sparklyr.jars.default"]] <- "ruta/ojdbc7.jar" 3 - Se crea la conexión, indicándole nuestra variable de configuración. connspark <- spark_connect(master="local&qu