El superordenador Frontier de AMD tiene dificultades y no puede funcionar un día sin problemas
Cuando AMD anunció que la compañía entregaría el superordenador más rápido del mundo, Frontier, la compañía también asumió la enorme tarea de proporcionar una máquina capaz de producir un ExaFLOP de capacidad total sostenida para realizar tareas de computación. Aunque el sistema está finalmente en marcha, hacer que una máquina de ese tamaño funcione correctamente es todo un reto. En el mundo de la computación de alto rendimiento, conseguir el hardware es sólo una parte del funcionamiento del centro HPC. En una entrevista concedida a InsideHPC, Justin Whitt, director del programa de la Oak Ridge Leadership Computing Facility (OLCF), explicó cómo es el funcionamiento del superordenador más rápido del mundo y a qué tipo de problemas se enfrenta.
El sistema Frontier está alimentado por CPUs AMD EPYC 7A53s "Trento" de 64 núcleos a 2,0 GHz y GPUs Instinct MI250X. Todo está interconectado por el conmutador de 64 puertos Slingshot de HPE (Cray), que se encarga de enviar los datos dentro y fuera de los blades de computación. La reciente entrevista señala un hallazgo bastante interesante: precisamente las GPU AMD Instinct MI250X y la interconexión Slingshot causan problemas de hardware a la Frontier. "Se trata sobre todo de problemas de escala, unidos a la amplitud de las aplicaciones, por lo que los problemas que estamos encontrando se refieren sobre todo a la ejecución de trabajos muy, muy grandes utilizando todo el sistema... y a conseguir que todo el hardware funcione de forma concertada para ello", afirma Justin Whitt. Además de los límites de la escala, "los problemas abarcan muchas categorías diferentes, las GPU son sólo una de ellas. Muchos de los problemas se centran en ellas, pero no son la mayoría de los problemas que vemos", afirma. "Hay una buena distribución entre los culpables comunes de los fallos de las piezas que han sido una parte importante. No creo que en este momento tengamos mucha preocupación por los productos de AMD. Estamos tratando con un montón de cosas del tipo de vida temprana que hemos visto con otras máquinas que hemos desplegado, así que no es nada demasiado fuera de lo común".
Muchas aplicaciones no pueden ejecutarse en un hardware de ese tamaño, por lo que es necesario un ajuste exclusivo. Con los problemas de hardware que ofrecen las GPU de AMD, es un poco más difícil tener un sistema operativo a tiempo. Sin embargo, el equipo de Oak Ridge confía en su experiencia y no tiene problemas para cumplir los plazos. Para obtener más información, lea la entrevista de InsideHPC.