Comparación entre NVIDIA H100 y A100 para el entrenamiento de modelos lingüísticos GPT.
La GPU H100 de NVIDIA está disponible desde hace poco para su uso a través de proveedores de servicios en la nube (CSP) y era cuestión de tiempo que alguien decidiera comparar su rendimiento con el de la GPU A100 de la generación anterior. Hoy, gracias a los benchmarks de MosaicML, una startup dirigida por el ex director general de Nervana y director general de Inteligencia Artificial (IA) en Intel, Naveen Rao, tenemos una comparativa entre estas dos GPU con una fascinante visión sobre el factor coste. En primer lugar, MosaicML ha tomado modelos Generative Pre-trained Transformer (GPT) de varios tamaños y los ha entrenado utilizando los formatos de precisión bfloat16 y FP8 Floating Point. Todo el entrenamiento se ha realizado en instancias de GPU en la nube CoreWeave.
En lo que respecta al rendimiento, la GPU NVIDIA H100 consiguió entre 2,2 y 3,3 veces más velocidad. Sin embargo, resulta interesante comparar el coste de ejecutar estas GPU en la nube. Los precios de CoreWeave para las GPU H100 SXM son de 4,76 $/hora/GPU, mientras que los de la A100 80 GB SXM son de 2,21 $/hora/GPU. Aunque la H100 es 2,2 veces más cara, el rendimiento lo compensa, lo que se traduce en menos tiempo para entrenar un modelo y un precio más bajo para el proceso de entrenamiento. Esto hace que la H100 resulte más atractiva para los investigadores y las empresas que desean entrenar grandes modelos lingüísticos (LLM) y hace que la elección de la GPU más reciente sea más viable, a pesar del mayor coste. A continuación, puedes ver tablas comparativas entre las dos GPU en cuanto a tiempo de entrenamiento, aceleración y coste del entrenamiento.