top of page
20220530_Trinity_En_Aplus (1)(1).jpg

AMD y Nexa AI revelan la mejora de NexaQuant de las capacidades de 4 bits de DeepSeek R1 Distill

Foto del escritor: MasterbitzMasterbitz

Nexa AI, ha anunciado hoy NexaQuants de dos DeepSeek R1 Distills: El DeepSeek R1 Distill Qwen 1.5B y el DeepSeek R1 Distill Llama 8B. Los métodos de cuantización más conocidos, como el Q4 K M basado en llama.cpp, permiten a los modelos lingüísticos de gran tamaño reducir significativamente su huella de memoria y, como contrapartida, suelen ofrecer una baja pérdida de perplejidad para los modelos densos. Sin embargo, incluso una pérdida de perplejidad baja puede resultar en un impacto en la capacidad de razonamiento de los modelos (densos o MoE) que utilizan trazas de Cadena de Pensamiento. Nexa AI ha declarado que los NexaQuants son capaces de recuperar esta pérdida de capacidad de razonamiento (en comparación con la precisión completa de 16 bits) manteniendo la cuantización de 4 bits y conservando la ventaja de rendimiento. A continuación se muestran las pruebas proporcionadas por Nexa AI.



Podemos ver que los destilados cuantificados Q4 K M de DeepSeek R1 puntúan ligeramente menos (excepto en el banco de pruebas AIME24 con el destilado Llama 3 8b, que puntúa significativamente menos) en los bancos de pruebas LLM como GPQA y AIME24 en comparación con sus homólogos de 16 bits completos. Pasar a una cuantización Q6 o Q8 sería una forma de solucionar este problema, pero provocaría que el modelo se ejecutara con más lentitud y necesitara más memoria. Nexa AI ha declarado que los NexaQuants utilizan un método de cuantización propio para recuperar la pérdida manteniendo la cuantización en 4 bits. Esto significa que, en teoría, los usuarios pueden obtener lo mejor de ambos mundos: precisión y velocidad.


Puede leer más sobre los destiladores NexaQuant DeepSeek R1 aquí.

Los siguientes NexaQuants DeepSeek R1 Distills están disponibles para su descarga:



Cómo ejecutar NexaQuants en sus procesadores AMD Ryzen o tarjeta gráfica Radeon

Recomendamos utilizar LM Studio para todas sus necesidades LLM.


1) Descarga e instala LM Studio desde lmstudio.ai/ryzenai

2) Ve a la pestaña discover y pega el enlace huggingface de uno de los nexaquants anteriores.

3) Espera a que el modelo termine de descargarse.

4) Vuelve a la pestaña chat y selecciona el modelo en el menú desplegable. Asegúrate de que la opción «elegir parámetros manualmente» está seleccionada.

5) Ajuste las capas de descarga de la GPU a MAX.

6) Carga el modelo y empieza a chatear.


Según estos datos proporcionados por Nexa AI, los desarrolladores también pueden utilizar las versiones NexaQuant de los DeepSeek R1 Distills anteriores para obtener un rendimiento generalmente mejorado en las aplicaciones basadas en llama.cpp o GGUF.


Fuentes: Comunidad AMD, Blog Nexa AI

 
 
 

Kommentit


Aplus_MARS_2107_Eng(1).png
gaming2

Siguenos

  • Facebook
  • Twitter
  • YouTube
  • Instagram
gaming

© 2016 Derechos Reservados a MasterbitzReviewHN

bottom of page