top of page
IG.png

AMD detalla el rendimiento de inferencia distribuida y de nodo único en la GPU Instinct MI355X

  • Foto del escritor: Masterbitz
    Masterbitz
  • 7 ene
  • 4 Min. de lectura

El rápido crecimiento de las cargas de trabajo de GenAI y LLM, desde flujos de trabajo agentísticos y el uso de herramientas de múltiples pasos hasta el razonamiento aumentado de recuperación, exige una infraestructura de inferencia que sea rápida, adaptable y altamente optimizada. Mientras que AMD continúa invirtiendo en marcos de inferencia de propósito general como vLLM y SGLang, ATOM proporciona el camino más directo hacia el pico Instinto MI355X Rendimiento de la GPU para el razonamiento moderno y las cargas de trabajo pesadas del MoE, que dominan cada vez más las arquitecturas LLM de la frontera.

En los últimos meses, AMD ha implementado numerosas optimizaciones para mejorar tanto el rendimiento de un solo nodo como la inferencia distribuida de múltiples nodos para DeepSeek-R1 en la GPU MI355X.

   

AMD abordó estos desafíos en la GPU AMD Instinct MI355X mediante la combinación de tres elementos estrechamente integrados:

  • Los núcleos altamente optimizados y fusionados para las primitivas modernas de LLM, como la atención de MLA, los expertos en MoE y los GEMM a escala de bloques, se sintonizaron específicamente para las GPU de Instinct

  • Un motor de inferencia AMD ligero que organiza la programación, la dosificación por lotes y la gestión de caché KV y puede ser ejecutado directamente por los usuarios. Este motor ha sido de código abierto aquí: https://github.com/ROCm/ATOM/

  • Soporte de inferencia distribuida de alto rendimiento, optimizado para despacho de MoE, agregación de expertos y tráfico de KV a través de nodos


Inferencia de un solo nodo

DeepSeek-R1 es un modelo de código abierto centrado en el razonamiento que combina la atención de MLA con expertos en MoE, lo que impone grandes demandas tanto en la eficiencia del cálculo como en el ancho de banda de la memoria. A través de niveles de concurrencia de 4 a 64, la GPU MI355X que ejecuta ATOM ofrece constantemente un fuerte rendimiento de inferencia en comparación con los sistemas NVIDIA Blackwell B200 que utilizan marcos de inferencia existentes. Estos resultados están impulsados por optimizaciones a nivel de núcleo, como la ejecución de MoE fusionada, la fusión de atención MLA y la reducción del movimiento de la memoria a través de la canalización de inferencias.


A niveles de concurrencia más altos (32 y 64), que son críticos para minimizar el costo por token en implementaciones a gran escala, la GPU MI355X con ATOM demuestra un rendimiento particularmente fuerte, igualando o superando los sistemas B200 que ejecutan SGLang en estos regímenes de alto rendimiento. La GPU MI355X mantiene esta ventaja de rendimiento en una gama de configuraciones de longitud de secuencia, incluyendo cargas de trabajo interactivas (1K/1K), orientadas al rendimiento (8K/1K) y de larga generación (1K/8K).


 

(Arriba) Figura 1: DeepSeek R1-FP8 ISL/OSL - 1K/1K, Concurrencia 4-64

 

(Arriba) Figura 2: DeepSeek R1-FP8 ISL/OSL - 8K/1K, Concurrencia 4-64

 

(Arriba) Figura 3: DeepSeek R1-FP8 ISL/OSL - 1K/8K, Concurrencia 4-64



Multi Nodo, Inferencia Distribuida

La GPU MI355X también demuestra un rendimiento competitivo en la inferencia distribuida de múltiples nodos para cargas de trabajo basadas en MoE. Al combinar la ejecución optimizada del kernel con un manejo distribuido eficiente del envío del MoE, la agregación de expertos y el tráfico de caché KV, la GPU MI355X se escala de manera efectiva a través de nodos para varias cargas de trabajo.


En configuraciones sensibles a la latencia, como la carcasa 1K/1K ISL/OSL, la GPU MI355X que utiliza una configuración de 3 nodos 1P2D, EP8 ofrece un mayor rendimiento por GPU que NVL72 con Dynamo, mientras que mantiene una interactividad similar, lo que es beneficioso para aplicaciones de cara al usuario en tiempo real. En términos más generales, la GPU MI355X admite estrategias avanzadas de inferencia distribuida (incluido el paralelismo experto y la desagregación de precarga / decodificación) y escala de manera efectiva a través de nodos para cargas de trabajo pesadas de MoE al manejar eficientemente el envío de MoE, la agregación de expertos y el tráfico de caché KV.

 

(Arriba) Figura 4: Inferencia Distribuida DeepSeek-R1 FP8, 1K/1K, Alta Interactividad


¿Qué es Next?

AMD continuará optimizando las cargas de trabajo de IA existentes y emergentes, que incluyen:

  • Diseño de exploración espacial para configuraciones más grandes de expertos y paralelos

  • Fusión adicional del operador para los modelos grandes del MoE

  • Inferencia de largo contexto y optimizaciones de servicio


Resumen

Este estudio demuestra que la GPU AMD Instinct MI355X ofrece un rendimiento de inferencia LLM competitivo y a menudo líder para los modelos modernos de MoE centrados en el razonamiento. Para la inferencia de un solo nodo, el ATOM que ejecuta MI355X logra un fuerte rendimiento e interactividad en una amplia gama de niveles de concurrencia y longitudes de secuencia. Estos resultados están habilitados por la ejecución optimizada del kernel para primitivas LLM clave, como la atención MLA, los expertos en MoE y los GEMM a escala de bloque.


En la inferencia distribuida, la GPU MI355X escala eficientemente para cargas de trabajo del MoE. En configuraciones sensibles a la latencia, como la caja 1K/1K ISL/OSL, la GPU MI355X en una configuración EP8 1P2D ofrece un mayor rendimiento por GPU con una interactividad similar, lo que la hace muy adecuada para escenarios de inferencia en tiempo real. La plataforma también admite estrategias avanzadas de paralelismo, incluido el paralelismo experto y la desagregación de prellenado y decodificación, lo que permite un rendimiento sólido en implementaciones orientadas a la latencia y orientadas al rendimiento.


Todas las optimizaciones discutidas en este estudio se han interpuesto en la comunidad de código abierto. Los usuarios pueden reproducir y ampliar estos resultados e implementar ATOM como un motor de inferencia independiente o como backend para marcos como vLLM y SGLang.


En conjunto, estos resultados muestran que la GPU MI355X está bien posicionada para soportar la próxima ola de cargas de trabajo de inferencia GenAI, donde la escalabilidad, la eficiencia y la apertura del software definen cada vez más la competitividad de la plataforma.



Nota al pie/exención de responsabilidad:

Todo el análisis de desempeño realizado por AMD a partir del 18 de diciembre de 2025. Este análisis se proporciona solo con fines informativos y no se debe confiar en ello para tomar una decisión de compra.


Comentarios


Aplus_MARS_2107_Eng(1).png
undefined - Imgur(1).jpg

Siguenos

  • Facebook
  • Twitter
  • YouTube
  • Instagram
gaming

© 2016 Derechos Reservados a MasterbitzReviewHN

bottom of page