Amazon AWS anuncia la disponibilidad general de las instancias Trainium2 y revela detalles del chip Trainium3 de próxima generación
Masterbitz
5 dic 2024
7 Min. de lectura
En AWS re:Invent, Amazon Web Services, Inc. (AWS), una compañía de Amazon.com, Inc., ha anunciado hoy la disponibilidad general de las instancias de Amazon Elastic Compute Cloud (Amazon EC2) basadas en AWS Trainium2, ha presentado los nuevos Trn2 UltraServers, que permiten a los clientes entrenar e implementar los últimos modelos de IA actuales, así como los futuros modelos de lenguaje de gran tamaño (LLM) y modelos básicos (FM) con niveles excepcionales de rendimiento y rentabilidad, y ha desvelado los chips Trainium3 de próxima generación.
«Trainium2 está diseñado para soportar las cargas de trabajo de IA generativa más grandes y vanguardistas, tanto para entrenamiento como para inferencia, y para ofrecer el mejor rendimiento de precios en AWS», afirma David Brown, vicepresidente de Computación y Redes de AWS. «Con modelos que se acercan a billones de parámetros, entendemos que los clientes también necesitan un enfoque novedoso para entrenar y ejecutar estas cargas de trabajo masivas». Los nuevos Trn2 UltraServers ofrecen el rendimiento de entrenamiento e inferencia más rápido en AWS y ayudan a organizaciones de todos los tamaños a entrenar e implementar los modelos más grandes del mundo más rápido y a un menor coste.»
Las instancias Trn2 ofrecen un 30-40% más de rendimiento en precio que la generación actual de instancias EC2 P5e y P5en basadas en GPU y cuentan con 16 chips Trainium2 para proporcionar 20,8 petaflops pico de cómputo, ideales para entrenar e implementar LLM con miles de millones de parámetros.
Amazon EC2 Trn2 UltraServers es una oferta de EC2 completamente nueva que cuenta con 64 chips Trainium2 interconectados, utilizando la interconexión ultrarrápida NeuronLink, para escalar hasta 83,2 petaflops pico de cómputo -cuadruplicando el cómputo, la memoria y la red de una sola instancia- lo que hace posible entrenar e implementar los modelos más grandes del mundo.
Junto con Anthropic, AWS está construyendo un EC2 UltraCluster de Trn2 UltraServers -denominado Proyecto Rainier- que contiene cientos de miles de chips Trainium2 y más de 5 veces el número de exaflops utilizados para entrenar su actual generación de modelos líderes de IA.
AWS presentó Trainium3, su chip de IA de próxima generación, que permitirá a los clientes crear modelos más grandes con mayor rapidez y ofrecer un rendimiento superior en tiempo real al implementarlos.
«Trainium2 está diseñado para soportar las cargas de trabajo de IA generativa más grandes y vanguardistas, tanto para entrenamiento como para inferencia, y para ofrecer el mejor rendimiento de precios en AWS», afirma David Brown, vicepresidente de Computación y Redes de AWS. «Con modelos que se acercan a billones de parámetros, entendemos que los clientes también necesitan un enfoque novedoso para entrenar y ejecutar estas cargas de trabajo masivas». Los nuevos Trn2 UltraServers ofrecen el rendimiento de entrenamiento e inferencia más rápido en AWS y ayudan a las organizaciones de todos los tamaños a entrenar e implementar los modelos más grandes del mundo más rápido y a un menor coste.»
A medida que los modelos crecen en tamaño, están empujando los límites de la infraestructura de computación y redes, ya que los clientes buscan reducir los tiempos de entrenamiento y la latencia de inferencia, es decir, el tiempo entre que un sistema de IA recibe una entrada y genera la salida correspondiente. AWS ya ofrece la selección más amplia y profunda de instancias EC2 aceleradas para IA/ML, incluidas las impulsadas por GPU y chips ML. Pero incluso con las instancias aceleradas más rápidas disponibles en la actualidad, los clientes quieren más rendimiento y escala para entrenar estos modelos cada vez más sofisticados con mayor rapidez y a un coste menor. A medida que crecen la complejidad de los modelos y los volúmenes de datos, el simple aumento del tamaño del clúster no permite acelerar el tiempo de entrenamiento debido a las limitaciones de la paralelización. Al mismo tiempo, las exigencias de la inferencia en tiempo real superan las capacidades de las arquitecturas de instancia única.
Trn2 es la instancia de Amazon EC2 de mayor rendimiento para aprendizaje profundo e IA generativa
Trn2 ofrece un 30-40% más de rendimiento en precio que la generación actual de instancias EC2 basadas en GPU. Una sola instancia Trn2 combina 16 chips Trainium2 interconectados con la interconexión ultrarrápida NeuronLink de chip a chip de gran ancho de banda y baja latencia para proporcionar 20,8 petaflops pico de cómputo, ideal para entrenar e implementar modelos de miles de millones de parámetros.
Los Trn2 UltraServers satisfacen las necesidades de computación de IA cada vez más exigentes de los modelos más grandes del mundo
Para los modelos más grandes que requieren aún más computación, los Trn2 UltraServers permiten a los clientes escalar el entrenamiento más allá de los límites de una sola instancia Trn2, reduciendo el tiempo de entrenamiento, acelerando el tiempo de comercialización y permitiendo una rápida iteración para mejorar la precisión del modelo. Los Trn2 UltraServers son una oferta EC2 completamente nueva que utiliza la interconexión ultrarrápida NeuronLink para conectar cuatro servidores Trn2 en un servidor gigante. Con los nuevos Trn2 UltraServers, los clientes pueden escalar sus cargas de trabajo de IA generativa a través de 64 chips Trainium2. Para las cargas de trabajo de inferencia, los clientes pueden utilizar Trn2 UltraServers para mejorar el rendimiento de inferencia en tiempo real para modelos de billones de parámetros en producción. Junto con Anthropic, AWS está creando un EC2 UltraCluster de Trn2 UltraServers, denominado Project Rainier, que escalará el entrenamiento de modelos distribuidos en cientos de miles de chips Trainium2 interconectados con redes EFA de tercera generación y baja latencia a escala petabit, más de 5 veces el número de exaflops que Anthropic utilizó para entrenar su generación actual de modelos de IA líderes. Cuando esté terminado, se espera que sea el clúster informático de IA más grande del mundo del que se haya informado hasta la fecha, disponible para que Anthropic construya y despliegue sus futuros modelos.
Anthropic es una empresa de seguridad e investigación en IA que crea sistemas de IA fiables, interpretables y dirigibles. El producto estrella de Anthropic es Claude, un LLM en el que confían millones de usuarios de todo el mundo. Como parte de la colaboración ampliada de Anthropic con AWS, han comenzado a optimizar los modelos de Claude para que se ejecuten en Trainium2, el hardware de IA más avanzado de Amazon hasta la fecha. Anthropic utilizará cientos de miles de chips Trainium2 -más de cinco veces el tamaño de su clúster anterior- para ofrecer un rendimiento excepcional a los clientes que utilicen Claude en Amazon Bedrock.
Mosaic AI de Databricks permite a las organizaciones crear y desplegar sistemas de agentes de calidad. Se construye de forma nativa sobre el data lakehouse, lo que permite a los clientes personalizar de forma fácil y segura sus modelos con datos empresariales y ofrecer resultados más precisos y específicos del dominio. Gracias al alto rendimiento y la rentabilidad de Trainium, los clientes pueden escalar el entrenamiento de modelos en Mosaic AI a bajo coste. La disponibilidad de Trainium2 será un gran beneficio para Databricks y sus clientes, ya que la demanda de Mosaic AI sigue creciendo en todos los segmentos de clientes y en todo el mundo. Databricks, una de las mayores empresas de datos e IA del mundo, planea utilizar Trn2 para ofrecer mejores resultados y reducir el coste total de propiedad hasta en un 30% para sus clientes.
Hugging Face es la plataforma abierta líder para creadores de IA, con más de 2 millones de modelos, conjuntos de datos y aplicaciones de IA compartidos por una comunidad de más de 5 millones de investigadores, científicos de datos, ingenieros de aprendizaje automático y desarrolladores de software. Hugging Face ha colaborado con AWS durante los dos últimos años, facilitando a los desarrolladores la experiencia de los beneficios de rendimiento y coste de AWS Inferentia y Trainium a través de la biblioteca de código abierto Optimum Neuron, integrada en Hugging Face Inference Endpoints y ahora optimizada dentro del nuevo servicio de autodespliegue HUGS, disponible en AWS Marketplace. Con el lanzamiento de Trainium2, los usuarios de Hugging Face tendrán acceso a un rendimiento aún mayor para desarrollar y desplegar modelos más rápidamente.
poolside se ha propuesto construir un mundo en el que la IA impulse la mayor parte del trabajo económicamente valioso y el progreso científico. poolside cree que el desarrollo de software será la primera gran capacidad de las redes neuronales que alcance el nivel de inteligencia humana. Para ello, están creando MF, una API y un asistente para poner el poder de la IA generativa en manos de los desarrolladores. Una de las claves de esta tecnología es la infraestructura que utilizan para crear y ejecutar sus productos. Con AWS Trainium2, los clientes de poolside podrán escalar su uso de poolside con una relación calidad-precio diferente a la de otros aceleradores de IA. Además, poolside planea entrenar futuros modelos con Trainium2 UltraServers, con un ahorro previsto del 40% en comparación con las instancias EC2 P5.
Chips Trainium3: diseñados para las necesidades de alto rendimiento de la próxima frontera de cargas de trabajo de IA generativa
AWS ha presentado Trainium3, su chip de entrenamiento de IA de próxima generación. Trainium3 será el primer chip de AWS fabricado con un nodo de proceso de 3 nanómetros, estableciendo un nuevo estándar de rendimiento, eficiencia energética y densidad. Se espera que los UltraServers equipados con Trainium3 tengan 4 veces más rendimiento que los UltraServers Trn2, lo que permitirá a los clientes iterar aún más rápido al crear modelos y ofrecer un rendimiento superior en tiempo real al implementarlos. Se espera que las primeras instancias basadas en Trainium3 estén disponibles a finales de 2025.
Permitir a los clientes desbloquear el desempeño de Trainium2 con el software AWS Neuron.
El SDK de Neuron incluye compilador, bibliotecas de tiempo de ejecución y herramientas para ayudar a los desarrolladores a optimizar sus modelos para que se ejecuten en Trainium. Proporciona a los desarrolladores la capacidad de optimizar modelos para un rendimiento óptimo en los chips Trainium. Neuron se integra de forma nativa con marcos de trabajo populares como JAX y PyTorch para que los clientes puedan seguir utilizando su código y flujos de trabajo existentes en Trainium con menos cambios de código. Neuron también soporta más de 100.000 modelos en el hub de modelos Hugging Face. Con Neuron Kernel Interface (NKI), los desarrolladores obtienen acceso a los chips Trainium de metal desnudo, lo que les permite escribir kernels de computación que maximizan el rendimiento para cargas de trabajo exigentes.
El software Neuron está diseñado para facilitar el uso de marcos de trabajo populares como JAX para entrenar y desplegar modelos en Trainium2, minimizando los cambios de código y la vinculación a soluciones de proveedores específicos. Google está apoyando los esfuerzos de AWS para permitir a los clientes utilizar JAX para la formación y la inferencia a gran escala a través de su integración nativa OpenXLA, proporcionando a los usuarios una ruta de codificación fácil y portátil para empezar a trabajar con instancias Trn2 rápidamente. Con la colaboración de código abierto en todo el sector y la disponibilidad de Trainium2, Google espera que aumente la adopción de JAX en toda la comunidad de ML, un hito importante para todo el ecosistema de ML.
Las instancias Trn2 están disponibles desde hoy en la región este de EE.UU. (Ohio) de AWS, y pronto lo estarán en otras regiones. Los UltraServers Trn2 están disponibles en vista previa.
Comments