top of page
IG.png

Intel AutoRound permite modelos LLM cuantificados más rápidos y eficientes en GPU Intel y dispositivos basados en CUDA, Cresent Island con FP8, MXFP8 y MXFP4 confirmados.

  • Foto del escritor: Masterbitz
    Masterbitz
  • hace 43 minutos
  • 2 Min. de lectura

AutoRound de Intel logra un LLM más rápido y eficiente en CPU y GPU de Intel, mientras que Crescent Island está listo con soporte MXFP8 y MXFP4.

ree

El algoritmo Intel AutoRound aumenta la entrega de LLM en CPUs, GPU, plataformas CUDA, Crescent Island obtiene soporte para MXFP8 y MXFP4


Comunicado de prensa: Nos complace anunciar que AutoRound, un algoritmo de cuantificación de cuantificación posterior al entrenamiento (PTQ) de última generación desarrollado por Intel, ahora está integrado en el compresor LLM. Esta colaboración ofrece:


  • Mayor precisión para la cuantificación de baja anchura de bits

  • Afinación ligera (cientos de pasos, no miles)

  • Sobrecarga de inferencia adicional cero

  • Compatibilidad perfecta con tensores comprimidos y servicio directo en vLLM

  • Flujo de trabajo optimizado: cuantificar y servir modelos con solo unas pocas líneas de código

Los esquemas de cuantificación más amplios y la cobertura del modelo están llegando a continuación: pruébelo ahora y ayude a dar forma a lo que construimos.


¿Qué Es AutoRound?

AutoRound es un algoritmo avanzado de cuantificación posterior al entrenamiento (PTQ) diseñado para modelos de lenguaje grande (LLM) y modelos de visión-idioma (VLM). Introduce tres parámetros entrenables por tensor cuantificado: v (desplazamiento/ajuste de redondeo), α y β (controles de rango de recorte aprendidos). Al procesar las capas del decodificador secuencialmente y aplicar el descenso de gradiente firmado, AutoRound optimiza conjuntamente el redondeo y el recorte para minimizar el error de reconstrucción de salida en bloque.


Fortalezas del núcleo:

  • Precisión superior, especialmente a muy bajos bits-ancho

  • Soporta múltiples tipos de datos: W4A16, MXFP8, MXFP4, FP8, NVFP4, con más información sobre el camino

  • Búsqueda de precisión de precisión de bit mixto y capa para compensaciones flexibles de precisión-eficiencia

  • Aplicabilidad tanto en LLMs como en VLMs


AutoRound permite modelos cuantificados en una gama de formatos de bits bajos que están diseñados para acelerar la inferencia de los procesadores Intel Xeon, los aceleradores Intel Gaudí AI, las GPU Intel Data Center, los gráficos de la serie B de Intel Arc, así como otras GPU (por ejemplo, dispositivos basados en CUDA).

ree

De cara al futuro, Intel está agregando soporte nativo para  FP8los formatos FP8, MXFP8MXFP8 y  a su GPU Intel Data Center de próxima generación con nombre en código . Los modelos cuantificados con AutoRound se escalarán naturalmente para aprovechar estos tipos de datos en toda la cartera de hardware de Intel AI. Esto crea un camino consistente desde la innovación algorítmica hasta la implementación en el mundo real.


Fuente: Wccftech

Comentarios


Aplus_MARS_2107_Eng(1).png
undefined - Imgur(1).jpg

Siguenos

  • Facebook
  • Twitter
  • YouTube
  • Instagram
gaming

© 2016 Derechos Reservados a MasterbitzReviewHN

bottom of page