Apache Spark es "un motor de análisis unificado de código abierto para procesar datos a gran escala en clústeres" y para el área donde trabajamos es fundamental debido a que permite cargar y procesar archivos de gran tamaño.
Con la reciente adqusición de un equipo de los llamados estaciones de trabajo, el sistema operativo con el que opera es un Ubuntu por lo que yo habilité un equipo viejo con un sistema operativo de casi la misma versión solo que para escritorio, no para servidor.
Por ahora el sistema manda constantemente un error relacionado con el "firmware" pero por ahora las aplicaciones que he instalado casi todas han funcionado con las pruebas realizadas hasta ahora, aquí el error que muestra generalmente cuando se instalan nuevos paquetes y sus dependencias.
Se encontraron errores al procesar:
firmware-b43-installer
E: Sub-process /usr/bin/dpkg returned an error code (1)
La siguiente imagen es un pequeño resumen del hardware y software donde se están realizando estás pruebas.
En un artículo de hace unos días (puede revisarlo en el blog "Artículos sobre lenguajes de programación y aplicaciones") se relata como se instaló este sistema operativo y lo que llamo yo "el ecosistema de R".
No se explica como se instaló RMarkdown, pero ahora intentamos explicar como fue con Apache Spark.
Para que funcione Spark es necesario tener la máquina virtual de Java, Ubuntu al digitar en la terminal el comando:
java -version
indica que no lo tiene instalado y muestra opciones para instalarlo:
La documentación de Apache Spark indica que la versión más alta que soporta es la 17, estamos en el mundo del software de código abierto por lo que, las opciones que se muestran son los de OpenJRE.
Se hace la instalación de la máquina virtual de Java en su versión 17.
Se verifica y pues en esta ocasión parece ser que la variable de entorno se modifica con esta instalación ya que tanto en la terminal, como en Posit RStudio esta accesible.
> system("java -version")
openjdk version "17.0.16" 2025-07-15
OpenJDK Runtime Environment (build 17.0.16+8-Ubuntu-0ubuntu124.04.1)
OpenJDK 64-Bit Server VM (build 17.0.16+8-Ubuntu-0ubuntu124.04.1, mixed mode, sharing)
Lo que sigue es instalar la librería sparklyr pero no fue posible ya que mandaba el siguiente error:
ERROR: dependency ‘xml2’ is not available for package ‘sparklyr’
Al consultar este error en el navegador (el que trae Ubuntu es FireFox) la IA nos da la solución que es instalar el paquete libxml2-dev.
Una vez hecho esto, ahora si sparklyr se puede instalar. Lo que sigue es hacer lo mismo que en Windows, se busca versiones disponibles de Spark, y se intenta a instalar la más alta disponible, antes cargamos la biblioteca sparklyr.
Primero se descarga la versión de Apache Spark en el equipo y después la instala, y con esto ya lo tenemos disponible para usarlo.
Lo que sigue es hacer un script que lea un archivo de gran tamaño y haga algún cálculo, pero que mejor que verlo en acción con un video.
Como era de esperarse al ser un equipo viejo y sin muchos recursos la ejecución del programa le llevó poco más de 15 minutos (el video fue editado).
Lo que sigue es tratar de replicar en la estación de trabajo para contar con las versiones del software más actualizadas.
Puede ser que quizás al ser diferentes plataformas (RServer y RStudio) no sea posible tener las versiones actualizadas, cosas que tenemos verificar.
Hasta el siguiente artículo.
Miguel Araujo.
Nota del que escribe: Este artículo fue escrito (redactado) sin la ayuda de alguna inteligencia artificial.
Comentarios
Publicar un comentario