top of page
IG.png

Intel y el Instituto Weizmann aceleran la IA con un avance en la descodificación especulativa

  • Foto del escritor: Masterbitz
    Masterbitz
  • hace 39 minutos
  • 2 Min. de lectura

En la Conferencia Internacional sobre Aprendizaje de Máquinas (ICML), investigadores de Intel Labs y el Instituto Weizmann de Ciencia introdujeron un importante avance en la decodificación especulativa. La nueva técnica, presentada en la conferencia en Vancouver, Canadá, permite que cualquier pequeño modelo "de borrador" acelere cualquier modelo de lenguaje grande (LLM) independientemente de las diferencias de vocabulario. "Hemos resuelto una ineficiencia central en la IA generadora. Nuestra investigación muestra cómo convertir la aceleración especulativa en una herramienta universal. Esto no es sólo una mejora teórica; estas son herramientas prácticas que ya están ayudando a los desarrolladores a construir aplicaciones más rápidas e inteligentes hoy en día", dijo Oren Pereg, investigador senior de Natural Language Processing Group, Intel Labs.

La decodificación especulativa es una técnica de optimización de inferencia diseñada para hacer LLMs más rápido y más eficiente sin comprometer la precisión. Funciona combinando un modelo pequeño y rápido con uno más grande, más preciso, creando un "esfuerzo de equipo" entre modelos. Considere el indicador de un modelo de IA: "Lo que es la capital de Francia"... Un LLM tradicional genera cada palabra paso a paso. Compute completamente "París", luego "a", luego "famoso", luego "ciudad" y así sucesivamente, consumiendo recursos significativos en cada paso. Con la decodificación especulativa, el pequeño modelo de asistente rápidamente redacta la frase completa "París, una ciudad famosa"... El modelo grande verifica la secuencia. Esto reduce drásticamente los ciclos de cómputo por ficha de salida.

 

Por qué importa: Este método universal de Intel y el Instituto Weizmann elimina las limitaciones de los vocabularios compartidos o de las familias modelo entrenadas, haciendo que la decodificación especulativa sea práctica a través de modelos heterogéneos. Ofrece ganancias de rendimiento de hasta 2.8 veces más rápidas inferencia sin pérdida de calidad de producción. 1 También funciona a través de modelos de diferentes desarrolladores y ecosistemas, haciéndolo de proveedores-agnostic; está listo de código abierto a través de la integración con la biblioteca Abrazar Face Transformers.


En un paisaje fragmentado de IA, este avance especulativo de decodificación promueve la apertura, la interoperabilidad y el despliegue rentable de la nube al borde. Desarrolladores, empresas e investigadores ahora pueden mezclar y emparejar modelos para adaptarse a sus necesidades de rendimiento y restricciones de hardware.


"Este trabajo elimina una barrera técnica importante para hacer la IA generativa más rápida y barata", dijo Nadav Timor, estudiante de doctorado en el grupo de investigación de Prof. David Harel en el Instituto Weizmann. "Nuestros algoritmos desbloquean las velocidades de última generación que antes estaban disponibles sólo para organizaciones que entrenan sus propios modelos pequeños".


El trabajo de investigación introduce tres nuevos algoritmos que combinan la codificación especulativa de la alineación de vocabulario. Esto abre la puerta para un despliegue LLM flexible con los desarrolladores que combinan cualquier modelo pequeño con cualquier modelo grande para optimizar la velocidad de inferencia y el costo en todas las plataformas.


La investigación no es sólo teórica. Los algoritmos ya están integrados en la biblioteca de código abierto de Abrazo Face Transformers utilizada por millones de desarrolladores. Con esta integración, la aceleración LLM avanzada está disponible fuera de la caja sin necesidad de código personalizado.

Comments


Aplus_MARS_2107_Eng(1).png
undefined - Imgur(1).jpg

Siguenos

  • Facebook
  • Twitter
  • YouTube
  • Instagram
gaming

© 2016 Derechos Reservados a MasterbitzReviewHN

bottom of page