Aplicaciones para estadística

Entradas

Mostrando entradas de octubre, 2020

Conectar bases de datos Oracle con R vía JDBC

Hasta ahora había documentado la conexión de R usando nuestra modesta pero poderosa base de datos pequeñita llamada SQLite. Debido a mis nuevas funciones se me pidió que conectara una base de datos de Oracle con R y esto lo consulté en la siguiente liga de internet. Entendemos que existen paquetes de R para un motor específico de una base de datos, pero como lo menciona el autor del post que cito arriba el usar el paquete RJDBC resume en 2 ventajas: Mayor facilidad de mantenimiento nuestros programas R cuando se cambia de motor de base de datos. La independencia del sistema operativo usando la máquina virtual de Java. Es por ello que el paquete RJDBC es una buena opción para conectar con nuestra diferentes bases de datos. Vamos a hacer un ejemplo donde conectamos una base de datos Oracle que contiene las defunciones del año 2018 en México. Lo primero que tenemos que hacer es instalar el paquete RJDBC. install.packages("RJDBC")

Spark (parte 2)

En el post pasado platicamos un poco por los antecedentes de Spark mostrando el primer estudio que se realizó comparando Spark con Hadoop . Otra aspecto en el cual Spark arroja resultados sorprendentes es la tarea del ordenamiento de datos, de tal manera que los autores del libro, mencionan que no hay otro sistema en el mundo más rápido que Spark (claro al momento que se escribió dicho libro, en esto de las Tecnologías de la Información todo es relativo). "Aunque Spark es bien conocido por su rendimiento en memoria, fue diseñado para ser un motor de ejecución general que funciona tanto en memoria como en disco. Por ejemplo, Spark ha configurado el ordenamiento de datos, para el cual los datos no se cargaron en la memoria; más bien, Spark realizó mejoras en la serialización y la reorganización de la red, así como el uso eficiente de la caché de la CPU para mejorar drásticamente el rendimiento". (Luraschi et al, 2020) El libro detalla el poder de Spark contra Hadoop p...

Spark (Parte 1)

Spark y RMarkdown han sido mis novatadas de mi nueva responsabilidad en el Instituto, he instalado y desinstalado R y software adyacente en más de una veintena de ocasiones. En el caso de Spark considero que el principal problema es lo inestable de la red del trabajo, y cuando estaba en casa ocurrió un detalle con las famosas VPNs que se están usando durante esta pandemia. Bien, pero ¿Qué es Spark ?. Mis compañeros han investigado y conseguido bibliografía y aquí compartiré parte de esta. El libro se llama " Mastering with R " es un libro gratuito digitalmente y se puede comprar en formato físico también. Los autores son Javier Luraschi, Kevin Kuo y Edgar Ruiz. En la vida de profesionistas, estudiantes y docentes tenemos muchas cosas que leer, y a veces pasamos por alto secciones de libros que tienen datos interesantes. Uno de estos ejemplos es la introducción del libro, donde menciona como los humanos hemos generado información desde que los sumerios inventaron la escritur...

Instalación de RMarkdown

En una serie muy popular de televisión de mediados de los años 2000 (Glee), Sarah Jessica Parker actúa en algunos capítulos y dice que tenemos que reinventarnos varias veces en la vida para alcanzar el éxito o quizás no lo logremos pero se tienen que hacer intentos sin lugar a dudas. Felizmente pero con muchos retos a cuestas, ahora estamos aprendiendo aun más del lenguaje de programación R, ya que es una de las apuestas de mi nueva dirección. Tengo algunos artículos pasados donde detallo lo de R desde el mundo de las encuestas (paquete survey ) donde empezamos a gatear referente a este lenguaje de programación. Ahora mi director hace una apuesta para que R aparte de sacar cifras, documente los procesos y los productos adyacentes creando archivos tales como páginas web, archivos de adobe e inclusive documentos de MSWord. Para ello existe el paquete RMarkdown.