Oracle desplegará 50 000 GPU AMD Instinct MI450 en nuevos superclústeres de IA

Masterbitz
14 oct 2025
4 Min. de lectura

AMD y Oracle han ampliado su asociación continua con el objetivo de aumentar la infraestructura de inteligencia artificial a través de grandes grupos de GPU en Oracle Cloud Infrastructure (OCI). OCI albergará el primer supercúmulo de IA disponible para el público que se ejecuta en las GPU de la serie MI450 de AMD Instinct. El plan es comenzar con 50.000 unidades en el tercer trimestre de 2026 y expandirse aún más en 2027. Los nuevos sistemas se basarán en las ofertas existentes de Oracle basadas en AMD, incluidas las instancias de GPU Instinct MI300X y MI355X, e introducirán el diseño de rack "Helios" de próxima generación de AMD. Cada rack combina GPU Instinct MI450, CPU EPYC "Venecia" y DPU de Pensando "Vulcano" utilizando configuraciones refrigeradas por líquido para aumentar el rendimiento y reducir los costos.

La próxima serie de aceleradores MI450 de AMD cuenta con hasta 432 GB de memoria HBM4 y 20 TB/s de ancho de banda para cada GPU. Esto permite la capacitación de modelos de inteligencia artificial mucho más grandes en memoria, mientras que los estándares de interconexión UALink y UALoE de AMD permiten que las GPU se comuniquen con la coherencia del hardware. Esto reduce la latencia y el enrutamiento de la CPU. Cada GPU también puede asociarse con hasta tres PEnsando "Vulcano" AI-NIC de hasta 800 Gbps. Estos admiten estándares avanzados de redes RoCE y UEC para permitir una capacitación distribuida de alto rendimiento. Las CPU "Venice" de AMD EPYC con características para computación confidencial y la pila de software de código abierto ROCm de AMD complementarán las nuevas unidades.

Las GPU de la serie MI450 de AMD Instinct en el clúster de Oracle ofrecerán:

Cálculo y memoria innovadores: ayuda a los clientes a lograr resultados más rápidos, abordar cargas de trabajo más complejas y reducir la necesidad de partición de modelos al aumentar el ancho de banda de memoria para los modelos de capacitación de IA. Cada GPU de la serie AMD Instinct MI450 proporcionará hasta 432 GB de HBM4 y 20 TB/s de ancho de banda de memoria, lo que permitirá a los clientes entrenar e inferir modelos que son un 50 por ciento más grandes que las generaciones anteriores completamente en memoria.
Diseño optimizado de rack "Helios" de AMD: permite a los clientes operar a escala al tiempo que optimiza la densidad de rendimiento, el costo y la eficiencia energética a través de racks densos, refrigerados por líquido y de 72 GPU. El diseño de rack "Helios" de AMD integra conectividad de ampliación de UALoE y redes de escalamiento alineadas con el Ultra Ethernet con Ethernet (UEC) para minimizar la latencia y maximizar el rendimiento en cápsulas y racks.
Nodo principal potente: ayuda a los clientes a maximizar la utilización de los clústeres y agilizar los flujos de trabajo a gran escala al acelerar la orquestación de trabajo y el procesamiento de datos en una arquitectura que consiste en CPU AMD EPYC de próxima generación, código llamado "Venecia". Además, estas CPU EPYC ofrecerán capacidades de computación confidenciales y características de seguridad integradas para ayudar a salvaguardar las cargas de trabajo de IA sensibles de extremo a extremo.
Redes convergentes aceleradas por DPU: impulsa la ingestión de datos de velocidad de línea para mejorar el rendimiento y mejorar la postura de seguridad para la infraestructura de inteligencia artificial y en la nube a gran escala. Construido sobre la tecnología AMD Pensando DPU totalmente programable, la red convergente acelerada por DPU ofrece la seguridad y el rendimiento requeridos para que los centros de datos ejecuten la próxima era de capacitación, inferencia y cargas de trabajo en la nube de IA.
Redes de escalado para IA: Permite a los clientes aprovechar la capacitación distribuida ultrarrápida y la comunicación colectiva optimizada con un tejido de red abierto listo para el futuro. Cada GPU puede estar equipada con hasta tres AMD Pensando "Vulcano" AI-NIC de hasta 800 Gbps, proporcionando a los clientes conectividad sin pérdidas, de alta velocidad y programable que admite estándares avanzados de RoCE y UEC.
Tejido innovador UALink y UALoE: ayuda a los clientes a ampliar eficientemente las cargas de trabajo, reducir los cuellos de botella de la memoria y orquestar grandes modelos de varios billones de parámetros. La arquitectura escalable minimiza el salto y la latencia sin enrutamiento a través de CPU y permite la creación de redes directas y coherentes con el hardware y el intercambio de memoria entre las GPU dentro de un rack a través del protocolo UALink transportado a través de un tejido UALoe. UALink es un estándar de interconexión abierto y de alta velocidad diseñado para aceleradores de IA y respaldado por un amplio ecosistema de la industria. Como resultado, los clientes obtienen la flexibilidad, la escalabilidad y la confiabilidad necesarias para ejecutar sus cargas de trabajo de IA más exigentes en infraestructura basada en estándares abiertos.
Open-source AMD ROCm software stack: Habilita la innovación rápida, ofrece libertad de elección de proveedores y simplifica la migración de las cargas de trabajo de IA y HPC existentes al proporcionar a los clientes un entorno de programación abierto y flexible, incluidos marcos de trabajo populares, bibliotecas, compiladores y tiempos de ejecución.
Partición avanzada y virtualización: permite a los clientes compartir clústeres de forma segura y asignar GPU en función de las necesidades de carga de trabajo al facilitar el uso seguro y eficiente de los recursos a través de la partición de GPU y pod, la virtualización de SR-IOV y el multi-tenancy robusto.