AMD anuncia compatibilidad desde el primer día con Qwen 3.5 LLM en GPU Instinct

Masterbitz
17 feb
4 Min. de lectura

AMD se complace en anunciar el soporte del Día 0 para la última generación de modelos de lenguaje grande de Alibaba, Qwen 3.5, sobre el instinto AMD MI300X, MI325X, y MI355X Aceleradores de GPU, en estrecha colaboración con el equipo de Alibaba Qwen. Aprovechando el marco optimizado de servicio de inferencia de la pila de software ROCm, SGLang y vLLM, los desarrolladores pueden implementar inmediatamente estos modelos de vanguardia.

El valor estratégico de Qwen 3.5 en AMD Instinct

Empoderar a los agentes de inteligencia artificial de próxima generación—Esta habilitación del Día 0 está diseñada para desarrolladores de IA, arquitectos de sistemas y profesionales de DevOps que construyen la próxima ola de agentes de IA y plataformas empresariales. Si bien los modelos anteriores requerían compensaciones entre la profundidad de los parámetros y la velocidad de razonamiento, la familia Qwen 3.5 en las GPU AMD Instinct permite a los equipos implementar ventanas de contexto masivas de 256K y flujos de trabajo multimodales complejos con una eficiencia sin precedentes.

Romper el cuello de botella de largo contexto

Las arquitecturas tradicionales de Transformer sufren de complejidad cuadrática; a medida que aumenta la longitud de la secuencia, los requisitos de memoria y computación crecen exponencialmente. Qwen 3.5 resuelve esto a través de su arquitectura de Atención Híbrida:

Escalamiento lineal: Al utilizar Redes Delta Gateadas, el modelo logra una complejidad lineal, lo que le permite mantener el rendimiento en contextos masivos que bloquearían los modelos densos estándar.
Velocidad de inferencia: En contextos que exceden los tokens de 32K, Qwen 3.5 ofrece un rendimiento significativamente mayor en comparación con sus predecesores debido a la reducción de la sobrecarga computacional.

Impacto Empresarial: Eficiencia Sin Compromiso

Para las empresas, esta integración proporciona un camino hacia la IA de alto rendimiento sin bloqueo del proveedor:

Ahorro masivo de costos: El diseño Ultra-Sparse MoE activa solo una fracción de sus parámetros totales durante la inferencia. Esto le permite superar a los modelos densos más grandes mientras usa significativamente menos computación.
Multimodalidad nativa: Con DeepStack y 3D Convolutions, el modelo puede operar de forma nativa como un "Agente Visual", identificando objetos en entornos complejos para casos de uso industriales o de soporte.
ROI maximizado: Al aprovechar la capacidad masiva de HBM de los desarrolladores de GPU AMD Instinct puede servir a modelos a gran escala y contextos masivos en una sola GPU o nodo único, reduciendo la huella de hardware necesaria para los agentes de grado de producción.

Optimizado para AMD ROCm, SGLang y vLLM

Para garantizar un alto rendimiento en el día cero, AMD ha trabajado para proporcionar soporte optimizado para el kernel para los componentes únicos de Qwen 3.5.

Atención lineal a través de Triton: Las redes Delta cerradas en Qwen 3.5 son compatibles con vLLM a través de núcleos basados en Triton (fused_recurrent_gated_delta_rule). Dado que SGLang y vLLM son compatibles con Triton en ROCm, estos núcleos funcionan desfasados en la GPU AMD.
MoE experto compartido: La ruta de experto compartido aprovecha los núcleos GEMM de hipBLASLt altamente optimizados, mientras que los expertos en ruta continúan utilizando implementaciones optimizadas de AITER FusedMoE.
Núcleos de visión: Las operaciones multimodales de montaje en posición rotativa (mRoPE) y Conv3d son totalmente compatibles a través de los núcleos estándar MIOpen y PyTorch en la GPU AMD.

¿Qué hay de nuevo en Qwen 3.5?

1. Arquitectura de atención híbrida

A diferencia de la dependencia de Qwen 3 de la atención de la ventana deslizante, Qwen 3.5 utiliza una estrategia de atención híbrida:

Atención completa: Las capas de atención estándar de múltiples cabezas se utilizan a intervalos establecidos (por defecto a cada 4a capa) para mantener un alto recuerdo asociativo.
Atención lineal (Gated Delta Networks): Qwen 3.5 implementa Gated Delta Networks (Qwen3_5GatedDeltaNet) que ofrecen complejidad lineal en relación con la longitud de la secuencia. Esto permite que el modelo maneje contextos masivos con una sobrecarga computacional significativamente reducida.

2. Capacidades multimodales nativas

Qwen 3.5 es "multimodal por diseño", con un DeepStack Vision Transformer:

Convoluciones: Trata el video como una tercera dimensión, utilizando Conv3d para incrustaciones de parches para capturar la dinámica temporal de forma nativa.
Mecanismo DeepStack: Combina características de múltiples capas del codificador visual en lugar de solo la última capa, capturando detalles visuales de grano fino y de alto nivel.

3. MoE avanzado con expertos compartidos

El modelo Qwen 3.5 MoE evoluciona la arquitectura estándar dispersa mediante la introducción de un mecanismo de experto compartido:

Experto compartido: Un MLP denso dedicado procesa cada token para capturar características universales, mejorando la estabilidad del entrenamiento y el rendimiento general del modelo.
Expertos en ruta: Los tokens se enrutan simultáneamente a un subconjunto de expertos especializados (por ejemplo, el top-8 activo de 64) a través de un router Top-K.

El Quickstart de AMD y el guía de requisitos previos se pueden encontrar en el Artículo completo.

Conclusión

Con el lanzamiento de Qwen 3.5, Alibaba continúa empujando los límites de los modelos de peso abierto. Al proporcionar soporte para el día 0 en las GPU AMD Instinct con SGLang y vLLM, nos aseguramos de que los desarrolladores tengan la potencia de cálculo y la pila de software optimizada necesaria para ejecutar estos modelos masivos de alto contexto a escala de producción.

Fuente: AMD Developer Resources

AMD anuncia compatibilidad desde el primer día con Qwen 3.5 LLM en GPU Instinct

Entradas recientes

Comentarios

Siguenos