Intel AutoRound permite modelos LLM cuantificados más rápidos y eficientes en GPU Intel y dispositivos basados en CUDA, Cresent Island con FP8, MXFP8 y MXFP4 confirmados.
- Masterbitz

- hace 43 minutos
- 2 Min. de lectura
AutoRound de Intel logra un LLM más rápido y eficiente en CPU y GPU de Intel, mientras que Crescent Island está listo con soporte MXFP8 y MXFP4.

El algoritmo Intel AutoRound aumenta la entrega de LLM en CPUs, GPU, plataformas CUDA, Crescent Island obtiene soporte para MXFP8 y MXFP4
Comunicado de prensa: Nos complace anunciar que AutoRound, un algoritmo de cuantificación de cuantificación posterior al entrenamiento (PTQ) de última generación desarrollado por Intel, ahora está integrado en el compresor LLM. Esta colaboración ofrece:
Mayor precisión para la cuantificación de baja anchura de bits
Afinación ligera (cientos de pasos, no miles)
Sobrecarga de inferencia adicional cero
Compatibilidad perfecta con tensores comprimidos y servicio directo en vLLM
Flujo de trabajo optimizado: cuantificar y servir modelos con solo unas pocas líneas de código
Los esquemas de cuantificación más amplios y la cobertura del modelo están llegando a continuación: pruébelo ahora y ayude a dar forma a lo que construimos.
¿Qué Es AutoRound?
AutoRound es un algoritmo avanzado de cuantificación posterior al entrenamiento (PTQ) diseñado para modelos de lenguaje grande (LLM) y modelos de visión-idioma (VLM). Introduce tres parámetros entrenables por tensor cuantificado: v (desplazamiento/ajuste de redondeo), α y β (controles de rango de recorte aprendidos). Al procesar las capas del decodificador secuencialmente y aplicar el descenso de gradiente firmado, AutoRound optimiza conjuntamente el redondeo y el recorte para minimizar el error de reconstrucción de salida en bloque.
Fortalezas del núcleo:
Precisión superior, especialmente a muy bajos bits-ancho
Soporta múltiples tipos de datos: W4A16, MXFP8, MXFP4, FP8, NVFP4, con más información sobre el camino
Búsqueda de precisión de precisión de bit mixto y capa para compensaciones flexibles de precisión-eficiencia
Aplicabilidad tanto en LLMs como en VLMs
AutoRound permite modelos cuantificados en una gama de formatos de bits bajos que están diseñados para acelerar la inferencia de los procesadores Intel Xeon, los aceleradores Intel Gaudí AI, las GPU Intel Data Center, los gráficos de la serie B de Intel Arc, así como otras GPU (por ejemplo, dispositivos basados en CUDA).










.png)



Comentarios