Penguin Solutions presenta el primer servidor de caché KV basado en CXL listo para producción del sector

Masterbitz
hace 25 minutos
3 Min. de lectura

Penguin Solutions, Inc. (Nasdaq: PENG), la compañía de plataforma de fábrica de IA, anunció hoy el primer servidor de caché KV listo para la producción de la industria que utiliza la tecnología de memoria CXL para abordar el desafío crítico de "muro de memoria" en la inferencia de IA: el servidor de caché MemoryAI KV de Penguin Solutions. Esta innovadora solución ofrece hasta 11 TB de memoria basada en CXL diseñada para optimizar el rendimiento de la inferencia de escala empresarial, incluida la IA agente. El resultado es una menor latencia, mayor rendimiento, mayor eficiencia de los clústeres de GPU, logro consistente de estrictos acuerdos a nivel de servicio (SLA) y un tiempo de tiempo hasta el primer token (TTFT) más rápido.

Mientras que el entrenamiento del modelo y la sintonización están principalmente ligados a la computación y se producen episódicamente, las cargas de trabajo de inferencia continuas unidas a la memoria y sensibles a la latencia requeridas para la inferencia y la IA agente son complejas y fundamentalmente diferentes. Las demandas de inferencia son típicamente 30% impulsadas por computación (GPU) y 70% de memoria impulsada (RAM), lo que eleva la necesidad de una mayor capacidad de memoria y causa cuellos de botella de rendimiento y tiempo de inactividad de la GPU. Al acelerar los procesos de IA dependientes de la memoria, el servidor de caché MemoryAI KV de Penguin aumenta la capacidad de memoria al integrar 3 TB de memoria principal DDR5 y hasta ocho tarjetas adicionales CXL (AIC) de 1 TB.

"La tecnología de caché KV habilitada para CXL ofrece un tiempo más rápido para el primer token, un tiempo reducido por token de salida y un mayor rendimiento general de tokens de extremo a extremo", dijo Phil Pokorny, director de tecnología de Penguin Solutions. "Estas mejoras críticas en el rendimiento permiten la inferencia a escala empresarial en muchos usuarios que esperan baja latencia y acceso oportuno a los conocimientos generados por la IA. La introducción del servidor de caché MemoryAI KV de Penguin está diseñada para ayudar a las empresas a mantener estas mejoras de rendimiento y estándares de servicio consistentes a medida que el tamaño del modelo, las ventanas de contexto, los requisitos de precisión y las demandas de concurrencia continúan creciendo".

Al expandir significativamente la memoria disponible para las GPU, el servidor permite a las organizaciones mitigar los límites de ancho de banda de la memoria de la GPU, reducir las operaciones redundantes de recomputación y optimizar los clústeres para el rendimiento de la inferencia. Este aumento de la eficiencia del sistema también permite a las organizaciones entrenar modelos más grandes y procesar conjuntos de datos expansivos más rápido.

Beneficios del servidor de caché MemoryAI KV de Penguin Solutions en el diseño de clúster

Con una memoria ampliada y desglosada, el servidor ofrece varios beneficios operativos:

Soporte para un mayor tamaño de contexto y concurrencia: el servidor de caché MemoryAI KV de Penguin es particularmente crucial para tareas a escala empresarial que requieren grandes ventanas de contexto y una latencia mínima, incluido el análisis de noticias financieras en tiempo real, la generación aumentada de recuperación (RAG) en conjuntos de datos masivos de 10 K y el análisis de cumplimiento normativo.
Flexibilidad para la memoria de clúster de nivel: la caché KV basada en CXL entregada por el servidor crea un nuevo nivel de memoria de clúster para complementar la memoria de alto ancho de banda existente (HBM) y la DRAM del sistema, entregando velocidades 10x más rápidas que los enfoques basados en NVMe. Esto proporciona una nueva flexibilidad en la descarga de datos KV para un acceso más rápido.
Compatibilidad con NVIDIA Dynamo: La solución es compatible con NVIDIA Dynamo, la arquitectura de software de NVIDIA para descarga de memoria caché KV.
Costo y eficiencia energética: el servidor permite a las organizaciones maximizar el uso eficiente de las GPU mediante la adición de grandes grupos de memoria y optimiza los clústeres mediante el tamaño adecuado de las GPU y la memoria. Además, la solución proporciona una operación eficiente, extrayendo menos energía que los servidores de GPU equivalentes.

El servidor de caché MemoryAI KV de Penguin Solutions se basa en el legado de innovación de Penguin Solutions en la experiencia informática de alto rendimiento, con clientes que ya implementan la solución para optimizar el rendimiento del clúster y cumplir con los exigentes SLA de latencia para la producción de cargas de trabajo de IA.

Explore la página del servidor de caché MemoryAI KV de Penguin Solutions o visite el stand #1031 en la Conferencia y Expo NVIDIA GTC AI 16-19 de marzo de 2026 en San José, California.

Fuente: Soluciones de pingüino

Penguin Solutions presenta el primer servidor de caché KV basado en CXL listo para producción del sector

Entradas recientes

Comentarios

Siguenos