El director de tecnología de AMD anuncia actualizaciones de memoria para los aceleradores Instinct serie MI300 revisados
Masterbitz
27 feb 20244 Min. de lectura
Brett Simpson, Socio y Co-Fundador de Arete Research, se sentó con el CTO de AMD, Mark Papermaster, durante el "Investor Webinar Conference" del primero. La semana pasada apareció en Internet una transcripción de la sesión de preguntas y respuestas de Arete + AMD: la charla se centró principalmente en temas relacionados con el "mercado informático de la IA". Papermaster fue preguntado por el enfoque competitivo de su empresa a la hora de enfrentarse a la popular gama de GPU de IA A100 y H100 de NVIDIA, así como al chip GH200 lanzado recientemente. El director de tecnología no reveló ninguna estrategia de precios específica, sino que se refirió al "panorama general": "Creo que lo más importante es analizar el coste total de propiedad, no sólo de una GPU o un acelerador, sino de todo el sistema. Pero ahora, si miramos también la macroeconomía, si no hay competencia en el mercado, vamos a ver no sólo un crecimiento del precio de estos dispositivos debido al contenido añadido que tienen, sino que... sin un control y equilibrio, vamos a ver márgenes muy, muy altos, más de lo que se podría sostener sin un entorno competitivo".
continuó Papermaster: "Y lo que creo que es muy importante, ya que AMD ha introducido en el mercado estos potentes dispositivos de entrenamiento e inferencia de IA, es que verán ese control y equilibrio. Y tenemos un enfoque muy innovador. Hemos sido líderes en el diseño de chiplets. Y así tenemos la tecnología adecuada para el propósito correcto de la construcción de IA que hacemos. Tenemos, por supuesto, un acelerador de GPU. Pero hay muchos otros circuitos asociados con la capacidad de escalar y construir estos grandes clusters, y somos muy, muy eficientes en nuestro diseño." Team Red empezó a distribuir su acelerador estrella, Instinct MI300X, a clientes importantes a principios de 2024. Simpson, de Arete Research, preguntó por la posibilidad de modelos posteriores. En respuesta, el director técnico de AMD hizo referencia a la historia reciente: "Bueno, creo que lo primero que voy a destacar es lo que hemos hecho para llegar a este punto, en el que somos una fuerza competitiva. Llevamos años invirtiendo en construir nuestra hoja de ruta de GPU para competir tanto en HPC como en IA. Teníamos un tren muy, muy fuerte en el que habíamos estado, pero teníamos que construir nuestro músculo en la habilitación de software."
Papermaster prosiguió: "Y así, empezamos hace años, un desarrollo de la pila de software ROCm. Compite de tú a tú con CUDA. Somos capaces de ir de frente. Somos una empresa de GPU igual que NVIDIA. Hemos competido con NVIDIA durante un año. Así que no es de extrañar que muchos de los - incluso la semántica de programación que utilizamos son similares porque hemos sido, francamente, recorrer el mismo camino durante décadas. Y así, eso nos llevó hasta el 6 de diciembre cuando anunciamos el MI300. Trajimos que la competencia ... Ahora estamos enviando, ahora estamos rampa. Y eso es exactamente lo que queríamos ... y nos permitió entonces crear un entorno diferente de cómo estamos trabajando con nuestros clientes más grandes. Trabajamos estrechamente con ellos y obtuvimos su opinión sobre el MI300". El lanzamiento por parte de AMD de sus últimos productos MI300 ha generado un gran revuelo en las industrias de IA, hasta el punto de que Team Green ha ajustado sus planes, según Papermaster: "Lo que se ha visto es que, de hecho, NVIDIA ha reaccionado a nuestro anuncio. De hecho, han acelerado su hoja de ruta. No nos hemos quedado parados. Hemos hecho ajustes para acelerar nuestra hoja de ruta con ambas configuraciones de memoria en torno a la familia MI300, derivados de MI300, la siguiente generación". La línea actual de aceleradores Instinct se basa en piezas HMB3, mientras que NVIDIA y sus socios de producción ya han pasado a HMB3E.
El director de tecnología de Team Red no parecía muy preocupado por esa evolución: "tenemos mucha experiencia en introducir memoria en el clúster de cálculo de la GPU. Hemos abierto el camino. Y lo que ahora es CoWoS en TSMC, que es la conectividad de sustrato de silicio más utilizada para tener la conexión más eficiente de la memoria de gran ancho de banda con el cálculo. Y trabajamos en estrecha colaboración con los tres proveedores de memoria. Por eso fuimos líderes con MI300, y decidimos invertir más en el complejo HBM. Así tenemos un mayor ancho de banda. Y eso es fundamental junto con la CDNA, que es como llamamos a nuestra IP, que es nuestra IP de computación de GPU para IA, junto con eso, fueron los conocimientos de HBM los que nos permitieron establecer nuestra posición de liderazgo en la inferencia de IA."
AMD parece estar preparada para actualizar Instinct con un estándar de memoria de gran ancho de banda ampliado: "Hemos diseñado la arquitectura para el futuro. Así que tenemos pilas de 8 alturas. Hemos diseñado pilas de 12 alturas. Salimos al mercado con MI300 HBM3. Hemos diseñado la arquitectura para HBM3E. Así que entendemos de memoria. Tenemos la relación y los conocimientos de arquitectura necesarios para estar al tanto de las necesidades. Y gracias a ese profundo historial que tenemos no sólo con los proveedores de memoria, sino también con TSMC y el resto de la comunidad de proveedores de sustratos y OSAT, nos hemos centrado también en la entrega y la cadena de suministro".
Comments