Apache Hadoop 3.3.0 llega con mejoras para plataformas ARM y mas

agosto 04, 2020 , 0 Comments

Después de un año y medio de desarrollo, la Apache Software Foundation ha dado a conocer el lanzamiento de la nueva version de Apache Hadoop 3.3.0, version en la cual añadió mejoras para las plataformas ARM, soporte para programar el lanzamiento de contenedores y otras cosas mas.

Apache Hadoop se posiciona como una plataforma gratuita para organizar el procesamiento distribuido de grandes cantidades de datos utilizando el paradigma map/reduce, en el que una tarea se divide en muchos fragmentos aislados más pequeños, cada uno de los cuales se puede ejecutar en un nodo de clúster separado.

El almacenamiento basado en Hadoop puede abarcar miles de nodos y contener exabytes de datos.

Sobre Apache Hadoop

Hadoop incluye una implementación del sistema de archivos distribuidos de Hadoop (HDFS), que proporciona redundancia de datos automáticamente y está optimizado para aplicaciones MapReduce.

Una funcionalidad clave es que para la programación efectiva de trabajo, cada sistema de archivos debe conocer y proporcionar su ubicación, el nombre del rack (más precisamente, del switch) donde está el nodo trabajador.

Las aplicaciones Hadoop pueden usar esta información para ejecutar trabajo en el nodo donde están los datos y, en su defecto, en el mismo rack/switch, reduciendo así el tráfico de red.

Para simplificar el acceso a los datos en el almacenamiento de Hadoop, se han desarrollado la base de datos HBase y el lenguaje Pig similar a SQL, que es un tipo de SQL para MapReduce, cuyas consultas pueden ser paralelizadas y procesadas por varias plataformas de Hadoop.

El proyecto se evalúa como completamente estable y listo para la operación industrial. Hadoop se utiliza activamente en grandes proyectos industriales, proporcionando capacidades similares a la plataforma Google Bigtable /GFS/MapReduce, mientras que Google delegó oficialmente Hadoop y otros proyectos de Apache tienen derecho a utilizar tecnologías cubiertas por patentes relacionadas con el método MapReduce.

Hadoop ocupa el primer lugar entre los repositorios de Apache en términos de la cantidad de cambios realizados y la quinta base de código más grande (aproximadamente 4 millones de líneas de código).

¿Qué hay de nuevo en Apache Hadoop 3.3?

Esta nueva version de Hadoop se posiciona como la primera version que cuenta con el soporte para plataformas basadas en ARM, con lo cual aquellos interesados en poder implementar esta plataforma podrán encontrar el binario para ARM ya disponible.

Otro de los cambios principales que se presenta en esta nueva version es la implementación de la nueva version del formato Protobuf (Protocol buffers) utilizado para serializar datos estructurados se ha actualizado a la versión 3.7.1 debido al final del ciclo de vida de la rama protobuf-2.5.0.

Además de ello, también las capacidades del conector S3A se han ampliado ya que ahora cuenta con el soporte agregado para la autenticación usando tokens, soporte mejorado para el almacenamiento en caché de respuestas con un código 404, mayor rendimiento de S3guard y confiabilidad operativa mejorada.

También se agregó el servicio de resolución DNS para que el cliente determine los servidores a través de DNS por nombres de host, lo que le permite prescindir de la lista de todos los hosts en la configuración.

Así como también el soporte para programar el lanzamiento de contenedores a través de un administrador de recursos centralizado (ResourceManager), incluso con la capacidad de distribuir contenedores teniendo en cuenta la carga de cada nodo.

De los demás cambios que se destacan de esta nueva version:

  • Los problemas con el ajuste automático se han resuelto en el sistema de archivos ABFS.
  • Se agregó soporte nativo para el sistema de archivos COS de Tencent Cloud para acceder al almacenamiento de objetos COS.
  • Se agregó soporte completo para Java 11.
  • Estabilizó la implementación de HDFS RBF (Federación basada en enrutador). Se han agregado controles de seguridad al enrutador HDFS.
  • Se agregó el directorio de aplicaciones YARN de búsqueda (otro negociador de recursos).

Finalmente si quieres conocer mas al respecto, puedes consultar los detalles de la nueva version en la publicación original.

Para quienes estén interesados en poder obtener la nueva version, pueden descargar los binarios preparados en el siguiente enlace.


Some say he’s half man half fish, others say he’s more of a seventy/thirty split. Either way he’s a fishy bastard.