AMD explica la economía de los chiplets para las GPU
AMD, en su presentación técnica de la nueva GPU Radeon RX 7900 de la serie "Navi 31", nos ha explicado detalladamente por qué ha tenido que optar por la vía de los chiplets para las GPU de gama alta, dispositivos mucho más complejos que las CPU. La compañía también nos explicó qué diferencia a los paquetes basados en chiplets de los clásicos módulos multichip (MCM). Un MCM es un paquete formado por múltiples dispositivos independientes que comparten un sustrato de fibra de vidrio.
Un ejemplo de MCM sería un procesador Intel Core móvil, en el que el dado de la CPU y el del PCH comparten un sustrato. En este caso, la CPU y el PCH son piezas independientes de silicio que, de otro modo, podrían existir en sus propios paquetes (como lo hacen en la plataforma de escritorio), pero se han emparejado en un único sustrato para minimizar el espacio de la placa de circuito impreso, algo muy valioso en una plataforma móvil. Un dispositivo basado en chiplets es aquel en el que un sustrato está formado por múltiples troqueles que, de otro modo, no podrían existir de forma independiente en sus propios paquetes sin un impacto en el ancho de banda o la latencia entre troqueles. En esencia, se trata de lo que deberían haber sido componentes de una matriz monolítica, pero que se han desintegrado en matrices separadas construidas en diferentes nodos de fundición de semiconductores, con un motivo puramente económico.
El giro de AMD hacia los chiplets se debe al aumento de los costes de las obleas de semiconductores, a medida que el proceso de fabricación del silicio avanza en la escala del tamaño del transistor. Aunque AMD se convirtió en una empresa sin fábricas hace 13 años, mantenía un estrecho acuerdo con Globalfoundries, la antigua división de fundición de AMD que escindió. La empresa continuó abasteciéndose de procesadores de Globalfoundries hasta los nodos FinFET de 14 nm-12 nm, y aunque Globalfoundries había planeado originalmente fabricar un nodo de menos de 10 nm que fuera competitivo con los 7 nm de TSMC y los 8 nm de Samsung, estos planes fracasaron. AMD mantuvo sus relaciones con TSMC, con quien fabricaba sus GPU Radeon. Dado que TSMC tenía el mejor nodo de 7 nm y la capacidad de escalar la producción hacia arriba, la compañía hizo su mayor apuesta, construyendo procesadores en 7 nm.
AMD no es el único cliente de TSMC, y la empresa no tardó en darse cuenta de que no podía fabricar CPUs de alto número de núcleos en troqueles monolíticos de 7 nm; tampoco podía hacer lo que hizo con los EPYC "Naples", que eran básicamente MCMs "4P en un palo", con espacio de matriz desperdiciado para componentes redundantes. Por lo tanto, desintegró el procesador. Los componentes que más podrían beneficiarse de la reducción a 7 nm, los núcleos de la CPU, se construirían en diminutas matrices con 8 núcleos de CPU cada una, que la empresa llamaría matrices de complejo de CPU (CCD). Cuanto más pequeña sea la matriz, mayor será el rendimiento por oblea, por lo que la empresa decidió que un trozo de silicio de unos 80 mm² con 8 núcleos de CPU hablaría con una matriz independiente que contenía todos los componentes que podía permitirse construir en un nodo ligeramente más antiguo con un impacto mínimo en las características energéticas y térmicas generales del producto. Lo llamaría el troquel de E/S. AMD continuaría construyendo productos Ryzen de cliente y EPYC de servidor con este enfoque, ya que los CCD de 8 núcleos eran comunes a ambas líneas de productos. El procesador de sobremesa de cliente tendría un die de E/S más pequeño y adecuado a la plataforma, al que llamaría cIOD (client I/O die), mientras que la parte de servidor, con capacidad para conectarse con un mayor número de CCD, se llamaría sIOD (server I/O die). AMD ha seguido obteniendo los chips de E/S de Globalfoundries, en su nodo de 12 nm, durante los últimos tres años. Con los últimos procesadores Ryzen 7000 y EPYC de 4ª generación basados en "Zen 4", AMD está construyendo los CCD en el nodo EUV de 5 nm, mientras que las matrices de E/S se construyen en el nodo menos avanzado de 6 nm.
Si avanzamos, AMD se encuentra con un problema en sus GPU Radeon. La compañía no gana tanto dinero vendiendo GPU discretas como con las CPU (cliente+servidor), por lo que el imperativo de reducir los costes de fabricación es aún mayor, sin perder competitividad frente a NVIDIA. Con la generación GeForce "Ada Lovelace", NVIDIA sigue apostando por el silicio monolítico para las GPU, construyendo incluso su mayor chip "AD102" como una GPU monolítica clásica. Esto ofrece a AMD la oportunidad de reducir el coste de fabricación de sus GPU, lo que podría permitirle librar una guerra de precios contra NVIDIA, en un intento de ganar cuota de mercado. Un ejemplo de ello es el precio relativamente agresivo que AMD está aplicando a la Radeon RX 7900 XTX, de 999 dólares, y a la RX 7900 XT, de 899 dólares, que la compañía cree que tienen lo necesario para enfrentarse a la RTX 4080 de NVIDIA, de 1.199 dólares, y probablemente incluso para intercambiar golpes con la RTX 4090, de 1.599 dólares, en algunos de los mejores escenarios.
El primer paso consiste en desintegrar una GPU de gama alta sin afectar su rendimiento, tiempos de fotogramas y características térmicas/energéticas; es identificar los componentes específicos en el silicio que podrían convertirse en chips, que pueden funcionar con un nodo de fundición más antiguo. Para un procesador de servidor EPYC, incluso con 9-12 chiplets, la empresa solo tiene que lidiar con cientos de rutas de señal que atraviesan el sustrato para interconectar los chiplets. Una GPU discreta de gama alta es mucho más compleja, y la escala de estas rutas de señal entre chiplets se cuenta por miles (en el caso del antiguo silicio RDNA2 "Navi 21"). Con el "Navi 31" RDNA3 más grande, este conteo solo será mayor. La empresa identificó los componentes que constituían al menos un tercio del área del troquel que no se beneficiaría tangiblemente del cambio a EUV de 5 nm: estos serían los controladores de memoria GDDR6, la memoria PHY y la memoria Infinity Cache (la Caché L3 de la GPU compartida entre todos los Shader Engines). Las GPU con interfaces de memoria de más de 64 bits tienden a usar varios controladores de memoria de 64 bits que se intercalan para crear una interfaz de memoria más amplia (como 128 bits, 256 bits, 384 bits, etc.). Este es el caso de AMD y NVIDIA. Por lo tanto, AMD decidió que no solo se separarán los controladores de memoria, sino que cada controlador de memoria con una ruta de memoria de 64 bits sería su propio chiplet y tendría un segmento de 16 MB de los 96 MB de memoria Infinity Cache de la GPU.
Este controlador de memoria + chiplet de caché se llamaría matriz de caché de memoria (MCD); mientras que el resto de la GPU con sus componentes lógicos intensos que en realidad se benefician de EUV de 5 nm, se nuclearía en un troquel centralizado más grande llamado troquel de cómputo gráfico (GCD). La GPU "Navi 31" tiene una interfaz de memoria GDDR6 de 384 bits de ancho, por lo que hay seis MCD. Suponiendo que AMD mantenga el diseño de chiplet incluso para sus GPU más pequeñas, simplemente puede usar una cantidad menor de los mismos MCD para lograr interfaces de memoria más estrechas, como 256 bits (4x MCD), 192 bits (3x MCD) o 128 bits. -bit (2x MCD). Si bien la interconexión entre el GCD y los MCD sigue siendo Infinity Fabric, AMD tuvo que desarrollar una nueva tecnología de cableado de capa física que usara el sustrato de fibra de vidrio orgánico existente para lograr el tipo de densidades de cableado altas necesarias para miles de rutas de señal. La empresa desarrolló la nueva capa física Infinity Fanout Link, que utiliza una gran cantidad de enlaces IF de 9,2 Gbps con cableado fanout, para lograr 10 veces la densidad de cableado entre el GCD y un MCD, en comparación con la capa física IFOP utilizada para conectar un procesador CCD "Zen" con el IOD. Un fanout es una técnica para lograr una gran cantidad de trazos de igual longitud entre dos puntos, donde no es posible ponerlos en línea recta. Por lo tanto, están hechos para serpentear a lo largo de obstáculos (como vías) de una manera que no comprometa la longitud de seguimiento igual necesaria para mantener la integridad de la señal.
Una alternativa familiar a AMD para el cableado Infinity Fabric Fanout habría sido utilizar un enfoque de empaquetado 3D, mediante el uso de un intercalador de silicio (un troquel que facilita el cableado microscópico de alta densidad entre troqueles apilados encima). Las GPU MCM anteriores de AMD han utilizado intercaladores para conectar la matriz de GPU y las pilas HBM. Un Interposer es una forma muy costosa de construir una GPU de cliente con espacio para recortes de precios en el futuro, ya que es un troquel grande de clase de 55 nm por sí mismo, que está hecho para actuar como una PCB. La desventaja obvia de desintegrar un chip lógico monolítico es la latencia, que es especialmente crítica para una GPU. Si bien la compañía no lo especifica, la derivación de los controladores de memoria a los MCD ha agregado una "cantidad modesta" de latencia en lugar de tenerlos en la matriz (como en "Navi 21"). AMD dice que intentó superar esta latencia aumentando las velocidades de reloj. El reloj base de Infinity Fabric es un 43 % más alto que el del "Navi 21", y los relojes del juego (relojes del motor de sombreado) han aumentado un 18 % de generación en generación.
El ancho de banda acumulado de los enlaces Infinity Fanout entre los seis MCD y el GCD es de 5,4 TB/s. Este ancho de banda es necesario, a pesar de que el ancho de banda de memoria GDDR6 general de la GPU solo es de 960 GB/s (a una velocidad de memoria de referencia de 20 Gbps); porque el MCD también contiene un segmento de Infinity Cache, que opera a una velocidad de datos mucho más alta que la memoria GDDR6. AMD también ha explicado, por primera vez, la economía del enfoque de chiplet para construir sus procesadores cliente Ryzen. Si un chip Ryzen de 16 núcleos, como el Ryzen 9 5950X, se hubiera construido en un chip monolítico de 7 nm, le habría costado a AMD 2,1 veces más en comparación con su enfoque basado en chiplet de usar dos CCD de 80 mm² de 8 núcleos emparejados con una matriz de E/S de 12 nm más económica. Porque entonces la empresa habría tenido que construir un chip de 7 nm mucho más grande con los 16 núcleos, los componentes de E/S; y también sufren rendimientos más bajos debido a que el troquel resultante es más grande (en comparación con los diminutos CCD).