Ir al contenido principal

Posit RStudio / Spark en Ubuntu 24.04

Apache Spark es "un motor de análisis unificado de código abierto para procesar datos a gran escala en clústeres" y para el área donde trabajamos es fundamental debido a que permite cargar y procesar archivos de gran tamaño.

Con la reciente adqusición de un equipo de los llamados estaciones de trabajo, el sistema operativo con el que opera es un Ubuntu por lo que yo habilité un equipo viejo con un sistema operativo de casi la misma versión solo que para escritorio, no para servidor.

Por ahora el sistema manda constantemente un error relacionado con el "firmware" pero por ahora las aplicaciones que he instalado casi todas han funcionado con las pruebas realizadas hasta ahora, aquí el error que muestra generalmente cuando se instalan nuevos paquetes y sus dependencias.

 Se encontraron errores al procesar:
 firmware-b43-installer
E: Sub-process /usr/bin/dpkg returned an error code (1)

 La siguiente imagen es un pequeño resumen del hardware y software donde se están realizando estás pruebas.

 

 En un artículo de hace unos días (puede revisarlo en el blog "Artículos sobre lenguajes de programación y aplicaciones") se relata como se instaló este sistema operativo y lo que llamo yo "el ecosistema de R".

No se explica como se instaló RMarkdown, pero ahora intentamos explicar como fue con Apache Spark.

Para que funcione Spark es necesario tener la máquina virtual de Java, Ubuntu al digitar en la terminal el comando:

java -version  

indica que no lo tiene instalado y muestra opciones para instalarlo:

 

La documentación de Apache Spark indica que la versión más alta que soporta es la 17, estamos en el mundo del software de código abierto por lo que, las opciones que se muestran son los de OpenJRE.

Se hace la instalación de la máquina virtual de Java en su versión 17.

Se verifica y pues en esta ocasión parece ser que la variable de entorno se modifica con esta instalación ya que tanto en la terminal, como en Posit RStudio esta accesible.

 > system("java -version")
openjdk version "17.0.16" 2025-07-15
OpenJDK Runtime Environment (build 17.0.16+8-Ubuntu-0ubuntu124.04.1)
OpenJDK 64-Bit Server VM (build 17.0.16+8-Ubuntu-0ubuntu124.04.1, mixed mode, sharing)

 Lo que sigue es instalar la librería sparklyr pero no fue posible ya que mandaba el siguiente error:

 ERROR: dependency ‘xml2’ is not available for package ‘sparklyr’

 Al consultar este error en el navegador (el que trae Ubuntu es FireFox) la IA nos da la solución que es instalar el paquete libxml2-dev.

 

Una vez hecho esto, ahora si sparklyr se puede instalar. Lo que sigue es hacer lo mismo que en Windows, se busca versiones disponibles de Spark, y se intenta a instalar la más alta disponible, antes cargamos la biblioteca sparklyr.

 

Primero se descarga la versión de Apache Spark en el equipo y después la instala, y con esto ya lo tenemos disponible para usarlo.

Lo que sigue es hacer un script que lea un archivo de gran tamaño y haga algún cálculo, pero que mejor que verlo en acción con un video.


 Como se puede observar tenemos Posit RStudio en su versión 2025.09.2 Build 418, R 4.5.1 así como OpenJRE 17 y Apache Spark 4.

Como era de esperarse al ser un equipo viejo y sin muchos recursos la ejecución del programa le llevó poco más de 15 minutos (el video fue editado).

Lo que sigue es tratar de replicar en la estación de trabajo para contar con las versiones del software más actualizadas.

Puede ser que quizás al ser diferentes plataformas (RServer y RStudio) no sea posible tener las versiones actualizadas, cosas que tenemos verificar.

Hasta el siguiente artículo.

Miguel Araujo.                                                     

Nota del que escribe: Este artículo fue escrito (redactado) sin la ayuda de alguna inteligencia artificial. 

Comentarios

Entradas populares de este blog

Posit Cloud - como instalar librerías de Python en el entorno de R

 Ahora que estamos tomando una maestría buscando que siga "girando la ardilla" por unos años más en la materia de "Cómputo Estadístico" nos ha sugerido usar la versión gratuita de Posit en la nube. En su página definen este producto como "es una solución basada en la nube que permite acceder al poderoso conjunto de herramientas de ciencia de datos de Posit directamente en el navegador web  - sin requerir instalación o configuraciones complejas". Para los usuarios que han utilizado Posit RStudio en primera instancia verán el entorno muy similar a Posit Cloud con algunas pequeñas diferencias, para empezar necesitamos un usuario o contraseña aunque es posible autenticarse usando alguna cuenta existente como es el caso de Google. Con el tiempo y trabajando en desarrollo de software, vamos entendiendo que quizás el nombre queda muy grande a los pequeños ejemplos, pero es muy recomendable el uso de proyectos siempre. A continuación vemos el entorno Posit Clo...

La librería openxlsx

En el Instituto se utiliza como herramienta de trabajo institucional la suite de ofimática MS Office que ofrece un precio asequible aunque lo actual en el mundo del software es el esquema de suscripciones el que casi se ha convertido en el común de las empresas gigantes de las tecnologías de la información. Es por ello que si bien en un principio que se usaban las bibliotecas XLConnectJars   y XLConnect, al tratar de bajarlas e instalarlas se descubrió - en aquel entonces - que estaban obsoletas. Es por ello que se volteo a la que revisaremos superficialmente en este artículo. Lo primero como siempre es descargar la librería openxlsx que se puede hacer desde el mismo Posit RStudio. Vamos a recrear un cuadro existente en el sitio del Instituto que debido a la crisis sanitaria iniciada en 2020 cobra una relevancia muy importante: "Las principales causas de muerte" que de forma anecdótica   fue la primera aplicación en la cual me pidieron que participara, un programa escri...

R 4.5 vs R 4.4.3

Cuando comparto con mis colegas, sobre todo de trabajo que es mi nicho profesional, acerca de porque tener las últimas versiones del software y que replico sobre todo por dos vertientes: mejor desempeño y funcionalidad del software, y la seguridad que pareciera que las empresas de software recomiendan los mismo o algo cercano a esto. Por ejemplo, veamos lo que nos dice Oracle (dueño de Java) acerca de su versión 8 del Java SE.   En la tabla de la página de Oracle podemos observar las fechas en los cuales ya no habrá soporte para ciertas versiones de Java. En este breve artículo veremos en el caso del interprete de R como se desempeña en una versión con respecto a la más reciente. Los puestos de trabajo que se registran por los patrones en el IMSS ha sido una cifra que muestra el avance o retroceso de como se encuentra el empleo en nuestro país, en este caso diremos que en el sector formal. Los microdatos oscilan arriba de los 20 millones y para su procesamiento es necesario o divi...