El SoC AMD Strix Point reintroduce la CPU Dual-CCX y revela otros detalles interesantes del silicio
Masterbitz
24 jul 20244 Min. de lectura
Desde su presentación la semana pasada, AMD ha profundizado un poco más en los detalles técnicos de sus dos próximos procesadores: el silicio «Strix Point», que alimenta sus procesadores móviles Ryzen AI serie 300, y el chip MCM «Granite Ridge», que alimenta sus procesadores de sobremesa Ryzen 9000. En este artículo presentamos un análisis más detallado del SoC «Strix Point». Resulta que «Strix Point» adopta un enfoque del multinúcleo heterogéneo significativamente diferente al de «Phoenix 2». AMD nos ha explicado en detalle cómo funciona. AMD ha fabricado el silicio monolítico «Strix Point» en el nodo de fundición N4P de TSMC, con un área de troquel de unos 232 mm².
El silicio «Strix Point» tiene como éter omnipresente la interconexión Infinity Fabric de la compañía. Se trata de una interconexión punto a punto, a diferencia del bus de anillo de algunos procesadores Intel. La principal maquinaria de cálculo del SoC «Strix Point» son sus dos complejos de cálculo de CPU (CCX), cada uno con una ruta de datos al tejido de 32b (lectura)/16b (escritura) por ciclo. El concepto de CCX reaparece con «Strix Point» tras casi dos generaciones de «Zen». El primer CCX contiene los cuatro núcleos de CPU «Zen 5» de tamaño completo del chip, que comparten entre sí una caché L3 de 16 MB. El segundo CCX contiene los ocho núcleos «Zen 5c» del chip, que comparten una caché L3 más pequeña de 8 MB. Cada uno de los 12 núcleos tiene una caché L2 dedicada de 1 MB.
Este enfoque del multinúcleo heterogéneo es muy diferente del de «Phoenix 2», en el que los dos núcleos «Zen 4» y los cuatro «Zen 4c» formaban parte de un CCX común, con una caché L3 común de 16 MB accesible a los seis núcleos.
Los núcleos «Zen 5» de «Strix Point» serán capaces de mantener frecuencias de subida elevadas, superiores a 5,00 GHz, y deberían beneficiarse de la mayor caché L3 de 16 MB compartida entre sólo cuatro núcleos (caché L3 por núcleo similar a la de «Granite Ridge»). Los núcleos «Zen 5c», por su parte, funcionan a frecuencias de base y de refuerzo inferiores a las de los núcleos «Zen 5», y disponen de menor cantidad de caché L3. Para que los subprocesos migren entre los dos tipos de núcleos, tendrán que pasar por la estructura y, en algunos casos, incluso realizar un viaje de ida y vuelta a la memoria principal.
El núcleo Zen 5c es un 25% más pequeño que el Zen 5 en cuanto a superficie. Como referencia, el núcleo Zen 4c es un 35% más pequeño que un núcleo Zen 4 normal. AMD ha trabajado para mejorar ligeramente las frecuencias de refuerzo máximas del núcleo Zen 5c en comparación con su predecesor, por lo que la banda de frecuencia de los núcleos Zen 5c está un poco más cerca. Los voltajes máximos más bajos y las frecuencias de refuerzo máximas de los núcleos Zen 5c los sitúan en una importante ventaja de eficiencia energética con respecto a los núcleos Zen 5. AMD sigue confiando en una solución de programación basada en software que garantiza que la carga de trabajo de procesamiento correcta se asigne al núcleo adecuado. La compañía afirma que la solución basada en software le permite corregir «errores de programación» con el tiempo.
La iGPU es el dispositivo que más ancho de banda consume de la estructura y obtiene su ruta de datos más amplia: 4x 32B/ciclo. Basada en la arquitectura gráfica RDNA 3.5, que conserva el motor SIMD y el IPC de RDNA 3, pero con varias mejoras en el rendimiento/vatio, esta iGPU también cuenta con 8 procesadores de grupo de trabajo (WGP), frente a los 6 del silicio «Phoenix» actual. Esto equivale a 16 CU o 1.024 procesadores de flujo. La iGPU también cuenta con 4 render backends+, lo que equivale a 16 ROP.
El tercer dispositivo que más ancho de banda consume es la NPU XDNA 2, con una ruta de datos de 32 B/ciclo de ancho de banda comparable a la de un CCX. La NPU cuenta con cuatro bloques de 8 matrices XDNA 2 y 32 mosaicos del motor de IA, lo que supone un rendimiento de 50 TOPS en inferencias de IA, y puede acelerarse. También es compatible con el formato de datos Block FP16 (no confundir con bfloat16), que ofrece la precisión de FP16 con el rendimiento de FP8.
Además de los tres componentes lógicos, hay otros aceleradores que exigen bastante ancho de banda, como el motor Video CoreNext, que acelera la codificación y descodificación; el coprocesador de audio, que procesa la pila de audio cuando el sistema está «apagado», para que pueda responder a comandos de voz; el controlador de pantalla, que gestiona la E/S de la pantalla, incluida la compresión del flujo de pantalla, si es necesario; la SMU, Microsoft Pluton, TPM y otro hardware de gestión.
Las interfaces de E/S del SoC «Strix Point» incluyen un controlador de memoria compatible con LPDDR5 de 128 bits, LPDDR5x y DDR5 de doble canal (160 bits). El complejo raíz PCI-Express está ligeramente truncado en comparación con el que trae «Phoenix». Hay un total de 16 carriles PCIe Gen 4. Los 16 deberían ser utilizables en portátiles que carecen de un chipset FCH discreto, pero el número de carriles utilizables debería bajar a 12 cuando AMD adapte finalmente este silicio al Socket AM5 para APUs de sobremesa. En los portátiles para juegos que utilizan procesadores Ryzen AI HX o de la serie H 300, las GPU discretas deberían tener una conexión Gen 4 x8. La conectividad USB incluye un USB 4 de 40 Gbps, o dos USB 3.2 Gen 2x2 de 20 Gbps, dos USB 3.2 Gen 2 adicionales de 10 Gbps y tres USB 2.0 clásicos.
Comentarios