top of page
20220530_Trinity_En_Aplus (1)(1).jpg
  • Foto del escritorMasterbitz

Meta anuncia un nuevo acelerador de IA MTIA con mayor rendimiento para aliviar el dominio de NVIDIA

Meta ha anunciado la nueva generación de su chip Meta Training and Inference Accelerator (MTIA), diseñado para entrenar e inferir modelos de IA a gran escala. El nuevo chip MTIA es un diseño de segunda generación del silicio personalizado de Meta para IA, y se está construyendo sobre la tecnología de 5 nm de TSMC. El nuevo chip, que funciona a una frecuencia de 1,35 GHz, tiene un TDP de 90 vatios por paquete, frente a los 25 vatios del diseño de primera generación. El procesamiento de subprogramas básicos de álgebra lineal (BLAS) es donde brilla el chip, e incluye multiplicación de matrices y procesamiento vectorial/SIMD. En el procesamiento matricial GEMM, cada chip puede procesar 708 TeraFLOPS en INT8 (presumiblemente se refería a FP8 en la especificación) con sparsity, 354 TeraFLOPS sin sparsity, 354 TeraFLOPS en FP16/BF16 con sparsity y 177 TeraFLOPS sin sparsity.



El procesamiento vectorial y clásico es un poco más lento, con 11,06 TeraFLOPS en INT8 (FP8), 5,53 TeraFLOPS en FP16/BF16 y 2,76 TFLOPS en FP32 de precisión simple. El chip MTIA está diseñado específicamente para ejecutar el entrenamiento y la inferencia de IA en el marco de IA PyTorch de Meta, con un backend Triton de código abierto que produce código compilador para un rendimiento óptimo. Meta lo utiliza para todos sus modelos Llama y, con Llama3 a la vuelta de la esquina, podría entrenarse en estos chips. Para empaquetarlo en un sistema, Meta coloca dos de estos chips en una placa y los combina con 128 GB de memoria LPDDR5. La placa se conecta mediante PCIe Gen 5 a un sistema en el que se apilan densamente 12 placas. Este proceso se repite seis veces en un solo bastidor para 72 placas y 144 chips en un solo bastidor para un total de 101,95 PetaFLOPS, suponiendo un escalado lineal con precisión INT8 (FP8). Por supuesto, el escalado lineal no es del todo posible en sistemas scale-out, lo que podría reducirlo a menos de 100 PetaFLOPS por rack.


A continuación, puedes ver imágenes del plano del chip, especificaciones comparadas con la versión anterior, así como el sistema.



Fuente: Meta

2 visualizaciones0 comentarios

Comentarios


Aplus_MARS_2107_Eng(1).png
bottom of page