top of page
IG.png

Llama 4 de Meta puede procesar 10 millones de tokens como entrada, vive en la multimodalidad nativa

  • Foto del escritor: Masterbitz
    Masterbitz
  • 7 abr
  • 2 Min. de lectura

Meta ha preparado una actualización de salto adelante para su serie de modelos Llama con el lanzamiento de la v4, entrando en una era de multimodalidad nativa dentro de los modelos de IA de la compañía. A la vanguardia se encuentra Llama 4 Scout, un modelo que cuenta con 17.000 millones de parámetros activos distribuidos entre 16 expertos en una configuración de mezcla de expertos (MoE). Con precisión FP4, este modelo está diseñado para ejecutarse íntegramente en una sola GPU NVIDIA H100. Scout ahora admite una ventana de contexto de entrada líder en el sector de hasta 10 millones de tokens, un salto sustancial con respecto a límites anteriores como el antiguo Gemini 1.5 Pro de Google, que venía con un contenido de entrada de 2 millones de tokens. Llama 4 Scout se ha construido utilizando una arquitectura híbrida densa y MoE, que activa selectivamente sólo un subconjunto de los parámetros totales de cada token, optimizando la eficiencia del entrenamiento y la inferencia. Esta arquitectura no sólo acelera el cálculo, sino que también reduce los costes asociados.



Por su parte, Llama 4 Maverick, otro modelo de la serie, también cuenta con 17.000 millones de parámetros activos, pero incorpora 128 expertos, lo que supone un total de 400.000 millones de parámetros. Maverick ha demostrado un rendimiento superior en codificación, comprensión de imágenes, procesamiento multilingüe y razonamiento lógico, superando incluso a varios modelos líderes de su clase. Ambos modelos adoptan la multimodalidad nativa integrando los datos de texto e imagen en una fase temprana del proceso. Utilizando un codificador de visión personalizado basado en MetaCLIP, estos modelos pueden procesar simultáneamente varias imágenes y texto, combinando los tokens en un único procesador backend. Esto garantiza una comprensión visual sólida y un anclaje preciso de los objetos, lo que potencia aplicaciones como la descripción detallada de imágenes, la respuesta visual a preguntas y el análisis de secuencias temporales de imágenes.



En el centro del ecosistema de Llama 4 se encuentra el modelo maestro, Llama 4 Behemoth, que escala hasta 288.000 millones de parámetros activos y casi dos billones de parámetros totales. Sirve como fuente de codestilación crítica, mejorando tanto a Scout como a Maverick mediante técnicas avanzadas de aprendizaje por refuerzo. Aunque el Llama 4 Behemoth aún se encuentra en proceso de formación, se situará entre los mejores de su clase. Curiosamente, los modelos Llama 4 de Meta se entrenan utilizando una precisión FP8, lo cual es significativo dado que sus modelos Llama 3 utilizan FP16 y FP8. Al utilizar con mayor eficacia las precisiones más bajas, Meta consigue un mayor aprovechamiento de los FLOPS de la GPU manteniendo la precisión. A continuación se muestran algunos benchmarks que comparan los modelos de Meta con los de otros laboratorios competidores como Google, Anthropic y OpenAI.


Fuente: Meta

Comments


Aplus_MARS_2107_Eng(1).png
undefined - Imgur(1).jpg

Siguenos

  • Facebook
  • Twitter
  • YouTube
  • Instagram
gaming

© 2016 Derechos Reservados a MasterbitzReviewHN

bottom of page