top of page
20220530_Trinity_En_Aplus (1)(1).jpg
  • Foto del escritorMasterbitz

Los aceleradores AMD MI300X compiten con los NVIDIA H100, Crunch MLPerf Inference v4.1

El consorcio MLCommons ha publicado este miércoles los resultados de MLPerf Inference v4.1 para los aceleradores de inferencia de IA más populares del mercado, entre los que se incluyen NVIDIA, AMD e Intel. Los aceleradores Instinct MI300X de AMD se mostraron competitivos frente a las GPU de IA de la serie «Hopper» H100 de NVIDIA. AMD también aprovechó la oportunidad para mostrar el tipo de mejoras de rendimiento en inferencias de IA que los clientes pueden esperar de sus procesadores de servidor EPYC «Turin» de nueva generación que alimentan estas máquinas MI300X. «Turin» cuenta con núcleos de CPU “Zen 5”, una ruta de datos FPU de 512 bits y un rendimiento mejorado en conjuntos de instrucciones SIMD de 512 bits relevantes para la IA, como AVX-512 y VNNI. El MI300X, por su parte, se basa en los puntos fuertes de su subsistema de memoria, la compatibilidad con el formato de datos FP8 y la gestión eficaz de la caché KV.



La prueba MLPerf Inference v4.1 se centró en el modelo LLaMA2-70B de 70.000 millones de parámetros. AMD presentó máquinas con la Instinct MI300X, equipadas con la actual EPYC «Genoa» (Zen 4) y la nueva generación EPYC «Turin» (Zen 5). Las GPU están respaldadas por la pila de software de código abierto ROCm de AMD. La prueba evaluó el rendimiento de la inferencia utilizando 24.576 muestras de preguntas y respuestas del conjunto de datos OpenORCA, cada una de las cuales contenía hasta 1024 tokens de entrada y salida. Se evaluaron dos escenarios: el escenario fuera de línea, centrado en el procesamiento por lotes para maximizar el rendimiento en tokens por segundo, y el escenario servidor, que simula consultas en tiempo real con estrictos límites de latencia (TTFT ≤ 2 segundos, TPOT ≤ 200 ms). De este modo, se puede comprobar la capacidad del chip tanto en consultas de alto rendimiento como de baja latencia.


La primera presentación de AMD (4.1-0002) muestra un servidor con 2 procesadores EPYC 9374F «Genoa» y 8 aceleradores Instinct MI300X. En este caso, la máquina registra 21.028 tokens/seg en la prueba de servidor, frente a los 21.605 tokens/seg de una máquina NVIDIA que combina 8x NVIDIA DGX100 con un procesador Xeon. En la prueba fuera de línea, la máquina de AMD obtiene 23.514 tokens/seg frente a los 24.525 tokens/seg de la máquina NVIDIA+Intel. AMD probó el MI300X 8x con un par de procesadores EPYC «Turin» (Zen 5) de cantidades de núcleos comparables, y ganó a NVIDIA, con 22.021 tokens/seg de servidor, y 24.110 tokens/seg fuera de línea. AMD afirma que está logrando un escalado casi lineal en el rendimiento entre 1x MI300X y 8x MI300X, lo que habla en favor de las habilidades de gestión de memoria y E/S de la plataforma de AMD.


Los resultados de AMD son un buen augurio para futuras versiones del modelo, como LLaMA 3.1 con sus gigantescos 405.000 millones de parámetros. Aquí, los 192 GB de HBM3 con 5,3 TB/s de ancho de banda de memoria resultan realmente útiles. Esto le valió a AMD una asociación con Meta para impulsar LLaMa 3.1 405B. Un blade MI300X 8x contiene 1,5 TB de memoria con más de 42 TB/s de ancho de banda de memoria, con Infinity Fabric gestionando la interconectividad. Un único servidor es capaz de albergar todo el modelo LLaMa 3.1 405B utilizando el tipo de datos FP16.

2 visualizaciones0 comentarios

תגובות


Aplus_MARS_2107_Eng(1).png
bottom of page