AMD detalla el rendimiento de inferencia distribuida y de nodo único en la GPU Instinct MI355X
- Masterbitz

- 7 ene
- 4 Min. de lectura
El rápido crecimiento de las cargas de trabajo de GenAI y LLM, desde flujos de trabajo agentísticos y el uso de herramientas de múltiples pasos hasta el razonamiento aumentado de recuperación, exige una infraestructura de inferencia que sea rápida, adaptable y altamente optimizada. Mientras que AMD continúa invirtiendo en marcos de inferencia de propósito general como vLLM y SGLang, ATOM proporciona el camino más directo hacia el pico Instinto MI355X Rendimiento de la GPU para el razonamiento moderno y las cargas de trabajo pesadas del MoE, que dominan cada vez más las arquitecturas LLM de la frontera.
En los últimos meses, AMD ha implementado numerosas optimizaciones para mejorar tanto el rendimiento de un solo nodo como la inferencia distribuida de múltiples nodos para DeepSeek-R1 en la GPU MI355X.
AMD abordó estos desafíos en la GPU AMD Instinct MI355X mediante la combinación de tres elementos estrechamente integrados:
Los núcleos altamente optimizados y fusionados para las primitivas modernas de LLM, como la atención de MLA, los expertos en MoE y los GEMM a escala de bloques, se sintonizaron específicamente para las GPU de Instinct
Un motor de inferencia AMD ligero que organiza la programación, la dosificación por lotes y la gestión de caché KV y puede ser ejecutado directamente por los usuarios. Este motor ha sido de código abierto aquí: https://github.com/ROCm/ATOM/
Soporte de inferencia distribuida de alto rendimiento, optimizado para despacho de MoE, agregación de expertos y tráfico de KV a través de nodos
Inferencia de un solo nodo
DeepSeek-R1 es un modelo de código abierto centrado en el razonamiento que combina la atención de MLA con expertos en MoE, lo que impone grandes demandas tanto en la eficiencia del cálculo como en el ancho de banda de la memoria. A través de niveles de concurrencia de 4 a 64, la GPU MI355X que ejecuta ATOM ofrece constantemente un fuerte rendimiento de inferencia en comparación con los sistemas NVIDIA Blackwell B200 que utilizan marcos de inferencia existentes. Estos resultados están impulsados por optimizaciones a nivel de núcleo, como la ejecución de MoE fusionada, la fusión de atención MLA y la reducción del movimiento de la memoria a través de la canalización de inferencias.
A niveles de concurrencia más altos (32 y 64), que son críticos para minimizar el costo por token en implementaciones a gran escala, la GPU MI355X con ATOM demuestra un rendimiento particularmente fuerte, igualando o superando los sistemas B200 que ejecutan SGLang en estos regímenes de alto rendimiento. La GPU MI355X mantiene esta ventaja de rendimiento en una gama de configuraciones de longitud de secuencia, incluyendo cargas de trabajo interactivas (1K/1K), orientadas al rendimiento (8K/1K) y de larga generación (1K/8K).

(Arriba) Figura 1: DeepSeek R1-FP8 ISL/OSL - 1K/1K, Concurrencia 4-64

(Arriba) Figura 2: DeepSeek R1-FP8 ISL/OSL - 8K/1K, Concurrencia 4-64

(Arriba) Figura 3: DeepSeek R1-FP8 ISL/OSL - 1K/8K, Concurrencia 4-64
Multi Nodo, Inferencia Distribuida
La GPU MI355X también demuestra un rendimiento competitivo en la inferencia distribuida de múltiples nodos para cargas de trabajo basadas en MoE. Al combinar la ejecución optimizada del kernel con un manejo distribuido eficiente del envío del MoE, la agregación de expertos y el tráfico de caché KV, la GPU MI355X se escala de manera efectiva a través de nodos para varias cargas de trabajo.
En configuraciones sensibles a la latencia, como la carcasa 1K/1K ISL/OSL, la GPU MI355X que utiliza una configuración de 3 nodos 1P2D, EP8 ofrece un mayor rendimiento por GPU que NVL72 con Dynamo, mientras que mantiene una interactividad similar, lo que es beneficioso para aplicaciones de cara al usuario en tiempo real. En términos más generales, la GPU MI355X admite estrategias avanzadas de inferencia distribuida (incluido el paralelismo experto y la desagregación de precarga / decodificación) y escala de manera efectiva a través de nodos para cargas de trabajo pesadas de MoE al manejar eficientemente el envío de MoE, la agregación de expertos y el tráfico de caché KV.

(Arriba) Figura 4: Inferencia Distribuida DeepSeek-R1 FP8, 1K/1K, Alta Interactividad
¿Qué es Next?
AMD continuará optimizando las cargas de trabajo de IA existentes y emergentes, que incluyen:
Diseño de exploración espacial para configuraciones más grandes de expertos y paralelos
Fusión adicional del operador para los modelos grandes del MoE
Inferencia de largo contexto y optimizaciones de servicio















.png)



Comentarios