Google: Las CPU lideran las cargas de trabajo de inferencia de IA, no las GPU
La infraestructura de IA actual se alimenta principalmente de la expansión que se basa en servidores acelerados por GPU. Google, uno de los mayores hiperescaladores del mundo, ha señalado que las CPU siguen siendo el principal cómputo para las cargas de trabajo de IA/ML, según consta en su análisis interno de la nube Google Cloud Services. Durante el evento TechFieldDay, un discurso de Brandon Royal, director de producto de Google Cloud, explicó la posición de las CPU en el juego de la IA actual. El ciclo de vida de la IA se divide en dos partes: entrenamiento e inferencia. Durante el entrenamiento, se necesita una enorme capacidad de cálculo, junto con una enorme capacidad de memoria, para introducir en la memoria modelos de IA en constante expansión. Los modelos más recientes, como GPT-4 y Gemini, contienen miles de millones de parámetros y necesitan miles de GPU u otros aceleradores trabajando en paralelo para entrenarse con eficacia.
Por otro lado, la inferencia requiere menos intensidad de cálculo, pero sigue beneficiándose de la aceleración. El modelo preentrenado se optimiza y despliega durante la inferencia para realizar predicciones sobre nuevos datos. Aunque se necesita menos computación que para el entrenamiento, la latencia y el rendimiento son esenciales para la inferencia en tiempo real. Google descubrió que, aunque las GPU son ideales para la fase de entrenamiento, los modelos suelen optimizarse y ejecutar la inferencia en CPU. Esto significa que hay clientes que eligen las CPU como medio de inferencia de la IA por una amplia variedad de razones.
Puede ser una cuestión de coste y disponibilidad. Las CPU suelen ser más baratas y más fáciles de conseguir que las GPU de gama alta o los aceleradores de IA especializados. Para muchas aplicaciones, una CPU proporciona rendimiento suficiente para la inferencia a un coste menor. Las CPU también ofrecen flexibilidad. Dado que la mayoría de los sistemas ya disponen de CPU, ofrecen una vía de implantación sencilla para modelos de IA más pequeños. Las GPU suelen requerir librerías y controladores especializados, mientras que la inferencia basada en CPU puede aprovechar la infraestructura existente. Esto simplifica la integración de la IA en los productos y flujos de trabajo existentes. La latencia y el rendimiento también entran en juego. Las GPU destacan por su enorme capacidad de procesamiento paralelo de la inferencia. Sin embargo, las CPU suelen ofrecer menor latencia para las solicitudes en tiempo real. La inferencia en la CPU puede ser preferible para aplicaciones como las recomendaciones online, que requieren una respuesta inferior al segundo.
Además, la optimización de la CPU para la inferencia está progresando rápidamente. El rendimiento sigue mejorando, impulsado por relojes más rápidos, más núcleos y nuevas instrucciones como Intel AVX-512 y AMX, las cargas de trabajo de IA pueden ejecutarse sin problemas sólo en CPU y son especialmente buenas si el servidor está configurado con más de un zócalo, lo que significa que hay más motores de IA presentes y el servidor puede procesar eficazmente modelos de IA con miles de millones de parámetros de tamaño. En general, Intel señala que los modelos de hasta 20.000 millones de parámetros funcionan bien en una CPU, mientras que los de mayor tamaño deben ir a un acelerador especializado.
Los modelos de IA como GPT-4, Claude y Gemini son modelos enormes que pueden alcanzar tamaños de más de un billón de parámetros. Sin embargo, son multimodales, es decir, procesan texto y vídeo. Una carga de trabajo empresarial real puede ser un modelo de IA que infiera los documentos locales de una empresa para responder a las preguntas de atención al cliente. Ejecutar un modelo como GPT-4 sería excesivo para esa solución. En cambio, modelos mucho más pequeños como LLAMA 2 o Mistral pueden servir excepcionalmente bien para fines similares sin necesidad de acceso a API de terceros y ejecutarse en un servidor local o en la nube con unas pocas CPU. Esto se traduce en un menor coste total de propiedad (TCO) y en canalizaciones de IA simplificadas.
Fuentes: TechFieldDay (YouTube), Keith Townsend (X/Twitter), Gelstalt IT
Bình luận