La nueva era ARM: lo que nos espera…

junio 23, 2020 , 0 Comments

Logo ARM

Si te llegan a decir hace unos años que un supercomputador con chips basados en la ISA ARM iban a ocupar la primera posición del TOP500 (lista de las 500 supercomputadoras más potentes del mundo), las risas y carcajadas hubieran sido sonoras. Nadie se imaginaba que una arquitectura que prácticamente no se usaba llegaría allí.

Poco a poco los chips ARM han ido ganando terreno, conquistando el terreno de los dispositivos móviles por su eficiencia y rendimiento, así como otros muchos productos embebidos. Pero ya hace unos años se comenzaron a crear algunos servidores con ARM de bajo consumo, y se comenzó a coquetear con esta ISA en el sector HPC (High Performance Computing).

La noticia que saltó recientemente sobre que Apple abandona a Intel para crear sus propios chips basados en ARM era importante, por todo lo que supone, pero pasó casi desapercibida por otra noticia mucho más importante. Y es que un supercomputador ARM pudo batir el rendimiento del IBM Summit y conquistar la primera posición de la lista Top500. Por primera vez un ARM llega tan alto, y eso ha supuesto un antes y un después…

No es desacertada la idea que ha llevado al proyecto EPI a crear futuros procesadores ARM para la no dependencia tecnológica del sector HPC de Europa con aceleradores RISC-V.

Volviendo a lo de Apple, parecía raro que un chip ARM pudiera superar en eficiencia y rendimiento a los de Intel, pero Apple se lo ha propuesto y podrá hacer diseños muy interesantes. Intel cada vez lo tiene más complicado, y no solo por la competencia de AMD…

El supercomputador

supercomputador Fogaku

Pero lo que jamás se imaginaría hace tiempo es que también puedan coronarse en el HPC. ¿quieres conocer más detalles? Pues bien, en la lista Top500 de junio de 2020, el primer puesto de rendimiento lo tiene el supercomputador Fugaku japonés. Un supercomputador basado en chips Fujitsu A64FX 48C a 2.2Ghz, de los cuales incorpora 7.299.072 nucleos de procesameinto para sumar una bestialidad de rendimiento de cálculo en coma flotante.

Concretamente llega a los 415,5 PFLOPS (es decir, 415.500.000.000.000.000 de operaciones de cálculo con decimales por segundo) y se usará para la investigación contra el SARS-CoV-2, entre otras cosas.

Está instalado en el centro de computación RIKEN de Kobe, Japón. En este centro de datos se han instalado sus más de 150K nodos de los que se compone, interconectados mediante una red de alta velocidad Tofu Interconect D para enlazar los chips ARMv8.2-A SVE de 52.cores por nodo.

Además usa memoria de gran ancho de banda HBM2 con una capacidad de 32 GiB por nodo. En cuanto al almacenamiento, tiene 1.6 TB NVMe compartida por cada 16 nodos, así como 150 PB Shared FS, y servicio adicional de almacenamiento en la nube.

Como sistema operativo usa Linux, concretamente la distribución RHEL 8, así como un IHK/McKernel de forma simultánea. Todas las simulaciones de rendimiento fueron medidas bajo McKernel, aunque Linux está presente para proveer del resto de servicios POSIX.

El chip

chip Fujitsu A64FX

La bestia de procesamiento que ha dado esas cifras es bastante «humilde». Se trata de un chip creado por Fujitsu. Se llama A64FX y es un microprocesador basado en la arquitectura ARM 8.2A, adoptando también SVE (Scalable Vector Extensions), unas extensiones adicionales a esa ISA base para conseguir mejores resultados de cálculo.

El A64FX que ha diseñado Fujitsu reemplaza así a sus anteriores chips para HPC basados en SPARC. Y no solo han marcado un hito por llevar al Fugaku a la primera posición del Top500, también por ser los primeros en soportar SIMD SVE de 512-bit.

Estos chips han sido fabricados en las factorías de TSMC, las mismas donde fabrican los Zen de AMD, y las mismas donde fabricarán el futuro chip de Europa. La tecnología que han usado tecnología de 7nm para construir sus 8.786.000.000 de transistores. Todo eso en un pequeño chip que solo necesita 594 pines.

Además, cada procesador usa 32 GB de memoria HBM2 con un ancho de banda de 1TB/s, con 16 carriles o lanes PCIx por procesador para conectarlos con los aceleradores, como las GPGPUs y FPGAs.

Por último, trabaja a 2.2 Ghz y se han sumado los suficientes package para completar esa cifra de casi 7.3 millones de núcleos y casi 5 PB de memoria.


Some say he’s half man half fish, others say he’s more of a seventy/thirty split. Either way he’s a fishy bastard.