Panmnesia utiliza el protocolo CXL para ampliar la memoria de la GPU con una tarjeta DRAM adicional o incluso un SSD
La startup surcoreana Panmnesia ha presentado una interesante solución para hacer frente a las limitaciones de memoria de las GPU modernas. La compañía ha desarrollado una IP Compute Express Link (CXL) de baja latencia que podría ayudar a ampliar la memoria de la GPU con una tarjeta complementaria externa. Las actuales aplicaciones de IA y HPC aceleradas en la GPU están limitadas por la cantidad de memoria integrada en las GPU. Con un tamaño de los datos que crece 3 veces al año, las redes de GPU deben seguir haciéndose más grandes sólo para que quepa la aplicación en la memoria local, lo que beneficia la latencia y la generación de tokens. El enfoque propuesto por Panmnesia para solucionar este problema aprovecha el protocolo CXL para ampliar la capacidad de memoria de la GPU utilizando DRAM conectada a PCIe o incluso unidades SSD. La compañía ha superado importantes obstáculos técnicos, como la ausencia de tejido lógico CXL en las GPU y las limitaciones de los sistemas de memoria virtual unificada (UVM) existentes.
En el corazón de la solución de Panmnesia se encuentra un complejo raíz compatible con CXL 3.1 con múltiples puertos raíz y un puente de host que incorpora un descodificador de memoria de dispositivo gestionado por host (HDM). Este sofisticado sistema engaña al subsistema de memoria de la GPU para que trate la memoria conectada al PCIe como memoria nativa del sistema. Las pruebas realizadas han demostrado resultados impresionantes. La solución CXL de Panmnesia, CXL-Opt, ha conseguido una latencia de ida y vuelta de dos dígitos de nanosegundo, superando con creces a UVM y a prototipos anteriores de CXL. En las pruebas de ejecución del núcleo de la GPU, CXL-Opt mostró tiempos de ejecución hasta 3,22 veces más rápidos que UVM. Los extensores de memoria CXL más antiguos registraron una latencia de ida y vuelta de unos 250 nanosegundos, mientras que CXL-Opt puede llegar a alcanzar menos de 80 nanosegundos. Al igual que con CXL, el problema suele ser que los grupos de memoria suman latencia y el rendimiento se degrada, mientras que estos extensores CXL tienden a añadirse también al modelo de costes. Sin embargo, el Panmnesia CXL-Opt podría encontrar un caso de uso, y estamos a la espera de ver si alguien lo adopta en su infraestructura.
A continuación se muestran algunas pruebas de Panmnesia, así como la arquitectura del CXL-Opt.
Comments