Microsoft desvela nuevos detalles sobre Maia 100, su primer chip de IA personalizado
Microsoft ofreció en Hot Chips 2024 una visión detallada de Maia 100, su primer chip especializado en IA. Este nuevo sistema está diseñado para funcionar a la perfección de principio a fin, con el objetivo de mejorar el rendimiento y reducir los gastos. Incluye placas de servidor especialmente fabricadas, bastidores exclusivos y un sistema de software centrado en aumentar la eficacia y la potencia de servicios de IA sofisticados, como Azure OpenAI. Microsoft presentó Maia en Ignite 2023, compartiendo que habían creado su propio chip acelerador de IA. A principios de este año se ofreció más información en el evento para desarrolladores Build. Maia 100 es uno de los procesadores más grandes fabricados con la tecnología de 5 nm de TSMC, diseñado para manejar tareas extensas de IA en la plataforma Azure.
Características de la arquitectura del SoC Maia 100:
Una unidad tensorial de alta velocidad (16xRx16) ofrece un procesamiento rápido para el entrenamiento y la inferencia, al tiempo que admite una amplia gama de tipos de datos, incluidos tipos de datos de baja precisión como el formato de datos MX, introducido por primera vez por Microsoft a través del Consorcio MX en 2023.
El procesador vectorial es un motor superescalar de acoplamiento flexible construido con una arquitectura de conjunto de instrucciones (ISA) personalizada para admitir una amplia gama de tipos de datos, incluidos FP32 y BF16.
Un motor de acceso directo a memoria (DMA) admite diferentes esquemas de fragmentación de tensor.
Los semáforos de hardware permiten la programación asíncrona en el sistema Maia.
El Maia 100 utiliza una conexión de red basada en Ethernet con un protocolo especial similar a RoCE, que permite un procesamiento de datos muy rápido. Puede manejar hasta 4800 Gbps para determinadas operaciones de datos y 1200 Gbps para la comunicación de todos contra todos.
Especificaciones de Maia 100:
Tamaño del chip: 820 mm².
TDP de diseño: 700 W
TDP previsto: 500 W
Embalaje: Proceso TSMC N5 con tecnología de intercalación COWOS-S
Ancho de banda de red backend: 600 GB/s (12X400gbe)
Ancho de banda de host (PCIe): 32 GB/s PCIe Gen5X8
El kit de desarrollo de software (SDK) de Maia ayuda a los programadores a adaptar sus modelos PyTorch y Triton para utilizarlos con Maia. El SDK incluye varias herramientas para simplificar el uso de estos modelos con Azure OpenAI Services. Los programadores pueden escribir código para el sistema Maia utilizando Triton, un lenguaje específico de dominio (DSL) de código abierto para redes neuronales profundas, o la API de Maia, un modelo personalizado que ofrece un alto rendimiento y un control detallado. Maia es directamente compatible con PyTorch, por lo que los desarrolladores pueden ejecutar modelos de PyTorch con sólo pequeños ajustes en su código.
Será interesante ver si Microsoft decide abrir el acceso a los aceleradores Maia 100 a otras organizaciones, de forma similar a lo que han hecho Google y Amazon con sus chips de IA.
Comments