Nexa AI, ha anunciado hoy NexaQuants de dos DeepSeek R1 Distills: El DeepSeek R1 Distill Qwen 1.5B y el DeepSeek R1 Distill Llama 8B. Los métodos de cuantización más conocidos, como el Q4 K M basado en llama.cpp, permiten a los modelos lingüísticos de gran tamaño reducir significativamente su huella de memoria y, como contrapartida, suelen ofrecer una baja pérdida de perplejidad para los modelos densos. Sin embargo, incluso una pérdida de perplejidad baja puede resultar en un impacto en la capacidad de razonamiento de los modelos (densos o MoE) que utilizan trazas de Cadena de Pensamiento. Nexa AI ha declarado que los NexaQuants son capaces de recuperar esta pérdida de capacidad de razonamiento (en comparación con la precisión completa de 16 bits) manteniendo la cuantización de 4 bits y conservando la ventaja de rendimiento. A continuación se muestran las pruebas proporcionadas por Nexa AI.
Podemos ver que los destilados cuantificados Q4 K M de DeepSeek R1 puntúan ligeramente menos (excepto en el banco de pruebas AIME24 con el destilado Llama 3 8b, que puntúa significativamente menos) en los bancos de pruebas LLM como GPQA y AIME24 en comparación con sus homólogos de 16 bits completos. Pasar a una cuantización Q6 o Q8 sería una forma de solucionar este problema, pero provocaría que el modelo se ejecutara con más lentitud y necesitara más memoria. Nexa AI ha declarado que los NexaQuants utilizan un método de cuantización propio para recuperar la pérdida manteniendo la cuantización en 4 bits. Esto significa que, en teoría, los usuarios pueden obtener lo mejor de ambos mundos: precisión y velocidad.

Kommentit