La NIC AMD Pensando Pollara 400 AI ya está disponible y se envía a los clientes
- Masterbitz
- 10 abr
- 4 Min. de lectura
Para entrenar y desplegar con eficacia la IA generativa, los grandes modelos de lenguaje o la IA agéntica, es crucial construir una infraestructura de computación paralela que ofrezca el mejor rendimiento para satisfacer las demandas de las cargas de trabajo de IA/ML, pero que también ofrezca el tipo de flexibilidad que exige el futuro de la IA. Un aspecto clave a tener en cuenta es la capacidad de escalar la red de comunicación GPU-GPU intra-nodo en el centro de datos.
En AMD, creemos que hay que preservar la capacidad de elección del cliente proporcionándole soluciones fácilmente escalables que funcionen en un ecosistema abierto, reduciendo el coste total de propiedad sin sacrificar el rendimiento. Fieles a esta filosofía, el pasado mes de octubre anunciamos el próximo lanzamiento de la nueva AMD Pensando Pollara 400 AI NIC. Hoy nos complace compartir que la primera NIC de IA totalmente programable del sector diseñada con los estándares y características del Consorcio Ultra Ethernet (UEC) en desarrollo ya está disponible para su compra. ¿Cómo se ha diseñado la Pensando Pollara 400 AI NIC para acelerar las cargas de trabajo de IA a escala?
Creación de una infraestructura de IA de alto rendimiento
Los proveedores de servicios en la nube, los hiperescaladores y las empresas buscan maximizar el rendimiento de sus clústeres de IA. Sin embargo, la red ha sido citada por muchos como el principal cuello de botella para los problemas de utilización de la GPU. La velocidad de transferencia de datos sólo importa si la red está correctamente optimizada para aprovecharla.
A medida que las cargas de trabajo de IA siguen creciendo a un ritmo asombroso, las organizaciones no pueden permitirse infrautilizar los recursos de red y computación. Los tres principales atributos de las redes con los mayores índices de utilización son el equilibrio inteligente de la carga, la gestión de la congestión, la rápida conmutación por error y la recuperación ante pérdidas. Las redes de alto rendimiento también deben optimizarse continuamente para aumentar el tiempo de actividad, los tiempos de finalización de los trabajos, la fiabilidad, la disponibilidad y la capacidad de servicio a escala.
Infraestructura ampliable y preparada para el futuro
Programabilidad del hardware que impulsa las hojas de ruta de los clientes
Impulsada por nuestra arquitectura P4, la Pensando Pollara 400 AI NIC ofrece un canal de hardware totalmente programable. Esto impulsa la máxima flexibilidad del cliente, desde la adición de nuevas capacidades, como las emitidas por la UEC y/o el desarrollo de protocolos de transporte personalizados, diseñados para acelerar las hojas de ruta de la empresa. Ahora, a medida que surgen nuevos estándares, iniciativas empresariales o cargas de trabajo de IA, los clientes no tienen que esperar a la próxima generación de hardware de NIC de IA para acelerar sus cargas de trabajo.
Desarrollo de funciones UEC para acelerar las cargas de trabajo de próxima generación
Protocolo de transporte a elección: aproveche RoCEv2, UEC RDMA o cualquier protocolo Ethernet de su elección.
Pulverización inteligente de paquetes: una función para aumentar la utilización del ancho de banda de la red con pulverización adaptativa avanzada de paquetes, que es fundamental para gestionar el gran ancho de banda y la baja latencia que requieren los grandes modelos de IA.
Gestión de paquetes fuera de orden y entrega de mensajes dentro de orden: diseñada para reducir el tiempo de almacenamiento en búfer mediante la gestión inteligente de las llegadas de paquetes fuera de orden, un reto habitual asociado a las técnicas de multirruta y pulverización de paquetes, esta función minimiza los errores y mejora la eficiencia durante el entrenamiento y la inferencia de IA, todo ello sin depender de un tejido de conmutación escalable.
Retransmisión selectiva: mejora el rendimiento de la red reenviando únicamente los paquetes perdidos o dañados mediante la entrega de mensajes en orden y la retransmisión selectiva de acuses de recibo (SACK).
Control de congestión por ruta: optimice el rendimiento de la red con un equilibrio de carga inteligente que evita automáticamente las rutas congestionadas y ayuda a mantener un rendimiento cercano a la velocidad de cable durante la congestión transitoria.
Detección rápida de fallos: acelera los tiempos de finalización de los trabajos de IA en cuestión de milisegundos, con monitorización ACK basada en el emisor, monitorización de paquetes basada en el receptor y verificación basada en sondas, lo que permite una conmutación por error casi instantánea y minimiza el tiempo de inactividad de la GPU.
La ventaja del ecosistema abierto
Al ofrecer compatibilidad independiente del proveedor, las organizaciones pueden crear una infraestructura de IA que satisfaga las demandas de las cargas de trabajo actuales y ofrezca una escalabilidad y programabilidad sencillas para los requisitos futuros. Con este enfoque de ecosistema abierto, la AMD AI NIC ayuda a reducir los gastos de capital sin sacrificar el rendimiento y sin depender de la implementación de costosos tejidos de conmutación basados en celdas y grandes búferes.
Validada en algunos de los mayores centros de datos a gran escala
Por último, pero no por ello menos importante, la Pensando Pollara 400 AI NIC está preparada para alimentar algunas de las mayores infraestructuras de escalabilidad horizontal con los primeros envíos a clientes que han sido probados por algunos de los mayores proveedores de servicios en la nube (CSP) del mundo. Los CSP eligieron la Pensando Pollara 400 AI NIC debido a su programabilidad distintiva, su gran ancho de banda, su rendimiento de baja latencia, su rico conjunto de características y su infraestructura verdaderamente extensible y compatible a través de un ecosistema abierto.

Comments