Esta tarjeta aceleradora de IA PCIe puede ejecutar modelos de lenguaje de 700 000 millones de parámetros de forma local con 384 GB de memoria y un consumo de tan solo 240 W..

Masterbitz
hace 3 minutos
2 Min. de lectura

Una compañía taiwanesa ha anunciado su nueva tarjeta de acelerador PCIe AI que puede ejecutar 400B LLMs localmente a solo 240W, poniendo fin a la necesidad de grandes clústeres de GPU.

Taiwanese Company Presenta Su Acelerador PCIe AI Que Devalúa Las Instalaciones De IA A Gran Escala Mediante La Ejecución De 700B LLM En Una Sola Tarjeta

Skymizer, una compañía con sede en Taiwán especializada en software y hardware de inteligencia artificial, ha anunciado su nueva solución, la HTX301. El HTX301 está diseñado para la IA On-Prem, que ofrece un diseño de tarjeta adicional PCIe y ofrece niveles a gran escala de rendimiento de IA en TDP de menos de 250W.

Algunos de los aspectos más destacados de la tarjeta incluyen:

Ejecute la inferencia del modelo de 700B-parameter en una sola tarjeta PCIe.
Aceleración de decodificación especialmente diseñada junto con orquestación unificada de precarga/decodificación.
IA en los prem con soberanía de datos, latencia determinista y costo fijo de infraestructura.

La compañía dice que el acelerador de IA PCIe HTX301 es su primer chip de inferencia que se basa en la plataforma HyperThought, que cuenta con su IP de LPU de próxima generación. La plataforma está especialmente diseñada para los LLM con un rendimiento optimizado y eficiencia energética en mente.

El HTX301 parece una tarjeta PCIe estándar, con un solo chip con memoria dispersa a su alrededor. La compañía explica que cada placa contará con seis chips HTX301, y a pesar de estar basada en un proceso más antiguo de 28 nm, ofrece resultados excepcionales, como lograr 30 tokens / segundo con solo 0.5 TOPS a 100 GB / s de ancho de banda. El LPU también es altamente escalable, lo que lleva a varias opciones de diseño.

La LPU Octa-Core alcanza 240 tokens/segundo en el precargo de Llama2 7B, y la compañía puede conectar múltiples chips juntos para hasta 1200 tokens/segundo en el mismo LLM con soporte adicional para modelos de hasta 700B.

La tarjeta PCIe también cuenta con hasta 384 GB de memoria. La tarjeta utiliza LPDDR4 y LPDDR5 DRAM estándar, por lo que nada elegante como LP5X, HBM o GDDR6/7. El diseño se selecciona para menores recuentos de parámetros y requisitos de ancho de banda DRAM. La arquitectura HTX301 de Skymizer también emplea técnicas de compresión eficientes como:

La compresión de peso (memoria a largo plazo) supera a llama.cpp de código abierto en un 9% a 17,8%.
Compresión de caché KV (memoria a corto plazo) con una pérdida de perplejidad mínima (menos de 0,06% a 3,52%).

Las características de potencia también son un destacado con el chip que consume solo 240W de potencia, menos de la mitad de los 600W de los principales aceleradores de inteligencia artificial PCIe, como el NVIDIA RTX PRO 6000 Blackwel l y el AMD Instinct MI350P.

Skymizer está reclamando algunos números grandes y presentará el HTX301 en Computex este año, por lo que definitivamente visitaremos su stand y veremos si las reclamaciones se mantienen, pero en general, esto suena como una impresionante solución de IA (en papel), lo que debería llevar a las empresas de nivel de entrada a quedarse con los servidores locales en lugar de invertir en la nube para sus necesidades de inteligencia artificial.

Fuente: Wccftech