AMD lanza el acelerador Instinct MI325X para cargas de trabajo de IA: 256 GB de memoria HBM3E y cálculo FP8 de 2,6 PetaFLOPS
Masterbitz
10 oct 20242 Min. de lectura
Durante su conferencia «Advancing AI» celebrada hoy, AMD ha actualizado su cartera de aceleradores de IA con el acelerador Instinct MI325X, diseñado para suceder a su predecesor MI300X. Construido sobre la arquitectura CDNA 3, Instinct MI325X aporta un conjunto de mejoras con respecto a la antigua SKU. Ahora, el MI325X incorpora 256 GB de memoria HBM3E que funcionan con un ancho de banda de 6 TB/s. La capacidad de memoria por sí sola supone una mejora de 1,8 veces con respecto a la antigua SKU MI300, que incorpora 192 GB de memoria HBM3 normal. Proporcionar más capacidad de memoria es crucial, ya que las próximas cargas de trabajo de IA están entrenando modelos con recuentos de parámetros medidos en billones, frente a los miles de millones de los modelos actuales. En cuanto a recursos de cálculo, Instinct MI325X proporciona 1,3 PetaFLOPS en FP16 y 2,6 PetaFLOPS en FP8 para entrenamiento e inferencia. Esto representa una mejora de 1,3 veces con respecto al Instinct MI300.
Un chip por sí solo no sirve de nada sin una buena plataforma, y AMD decidió hacer de los módulos Instinct MI325X OAM un sustituto directo de la plataforma actual diseñada para MI300X, ya que ambos son compatibles con los pines. En los sistemas con ocho aceleradores MI325X, hay 20 TB de memoria HBM3E funcionando a 48 TB/s de ancho de banda de memoria. Este sistema alcanza 10,4 PetaFLOPS de FP16 y 20,8 PetaFLOPS de FP8. La compañía utiliza el H200 HGX de NVIDIA como referencia para demostrar su competitividad en cuanto a rendimiento, y afirma que el Instinct MI325X supera al sistema H200 HGX de NVIDIA en 1,3 veces en ancho de banda de memoria, rendimiento de cálculo FP16 / FP8 y 1,8 veces en capacidad de memoria.
El núcleo del acelerador es la pila de software ROCm. Hace poco hablamos del plan de AMD de que ROCm llegara a todas las GPU, incluso a los modelos de consumo. La compañía ha reiterado este punto. Otra importante aclaración fue la colaboración con la comunidad de código abierto para integrar todas las funciones más recientes en su pila ROCm, especialmente de frameworks como PyTorch, Triton, ONNX, etc. AMD también señaló que la compañía está preparando la familia Instinct MI350X para la segunda mitad de 2025. Para entonces, deberíamos estar recibiendo un acelerador Instinct MI355X CDNA 4 construido en el nodo de 3 nm de TSMC, funcionando con 288 GB de HBM3E. La nueva arquitectura CDNA 4 admite tipos de datos de menor palanca, como FP4 y FP6. El chip producirá 2,3 PetaFLOPS de FP16 y 4,6 PetaFLOPS de FP8. Los nuevos formatos FP4 y FP6 permitirán que un solo CDNA 4 Instinct MI355X alcance 9,2 PetaFLOPS de capacidad de cálculo.
Comentarios