top of page
20220530_Trinity_En_Aplus (1)(1).jpg
  • Foto del escritorMasterbitz

El chip de inferencia de inteligencia artificial Groq LPU compite con grandes empresas como NVIDIA, AMD e Intel

Las cargas de trabajo de la IA se dividen en dos categorías diferentes: entrenamiento e inferencia. Mientras que el entrenamiento requiere una gran capacidad de computación y memoria, la velocidad de acceso no es un factor importante; la inferencia es otra historia. En el caso de la inferencia, el modelo de IA debe ejecutarse a gran velocidad para ofrecer al usuario final el mayor número posible de tokens (palabras) y, de este modo, responder más rápidamente a sus preguntas. Groq, una empresa emergente de chips de IA que ha permanecido en modo oculto durante mucho tiempo, ha dado pasos importantes para proporcionar velocidades de inferencia ultrarrápidas utilizando su unidad de procesamiento de lenguaje (LPU) diseñada para grandes modelos de lenguaje (LLM) como GPT, Llama y Mistral LLM. La LPU de Groq es una unidad mononúcleo basada en la arquitectura Tensor-Streaming Processor (TSP) que alcanza 750 TOPS en INT8 y 188 TeraFLOPS en FP16, con multiplicación matricial de productos de puntos fusionados de 320x320, además de 5.120 ALU vectoriales.



Con una concurrencia masiva de 80 TB/s de ancho de banda, la Groq LPU tiene 230 MB de capacidad de SRAM local. Todo esto está trabajando en conjunto para proporcionar a Groq un rendimiento fantástico, haciendo olas en los últimos días en Internet. Sirviendo al modelo Mixtral 8x7B a 480 tokens por segundo, la Groq LPU está proporcionando uno de los números de inferencia líderes en la industria. En modelos como Llama 2 70B con 4096 tokens de longitud de contexto, Groq puede servir 300 tokens/s, mientras que en el más pequeño Llama 2 7B con 2048 tokens de contexto, Groq LPU puede producir 750 tokens/s. Según el LLMPerf Leaderboard, la Groq LPU está superando a los proveedores de nube basados en GPU en la inferencia de LLMs Llama en configuraciones de entre 7 y 70 mil millones de parámetros. En rendimiento de tokens (salida) y tiempo hasta el primer token (latencia), Groq lidera el pelotón, logrando el mayor rendimiento y la segunda menor latencia.Para poner las cosas en perspectiva, ChatGPT, ejecutándose en la versión gratuita con GPT-3.5, puede producir alrededor de 40 tokens/s. Los LLM de código abierto actuales, como Mixtral 8x7B, pueden batir a GPT 3.5 en la mayoría de los benchmarks, y ahora estos LLM de código abierto pueden funcionar a casi 500 tokens/s. Parece que los días de espera de los chatbots lentos están empezando a desaparecer lentamente a medida que los chips de inferencia rápidos como la LPU de Groq empiezan a ser más comunes. Esta startup de IA amenaza directamente al hardware de inferencia proporcionado por NVIDIA, AMD e Intel. La cuestión sigue siendo si la industria adoptará la LPU, pero el rendimiento que ofrece está ahí. Nosotros también hemos probado la inferencia de Groq, y puedes hacerlo aquí.



Fuente: Groq (en X)

6 visualizaciones0 comentarios

Comments


Aplus_MARS_2107_Eng(1).png
bottom of page