top of page
IG.png

NVIDIA analiza el potencial de generación de ingresos de las fábricas de IA

  • Foto del escritor: Masterbitz
    Masterbitz
  • 16 may
  • 6 Min. de lectura

La IA está creando valor para todo el mundo, desde los investigadores en el descubrimiento de fármacos hasta los analistas cuantitativos que navegan por los cambios del mercado financiero. Cuanto más rápido pueda un sistema de IA producir tokens, una unidad de datos utilizada para encadenar resultados, mayor será su impacto. Por eso las fábricas de IA son clave, ya que proporcionan el camino más eficiente desde el «tiempo hasta el primer token» hasta el «tiempo hasta el primer valor». Las fábricas de IA están redefiniendo la economía de la infraestructura moderna. Producen inteligencia transformando los datos en resultados valiosos -ya sean fichas, predicciones, imágenes, proteínas u otras formas- a gran escala.



Ayudan a mejorar tres aspectos clave del proceso de la IA: la ingesta de datos, la formación de modelos y la inferencia de grandes volúmenes. Las fábricas de IA se están construyendo para generar tokens de forma más rápida y precisa, utilizando tres pilas tecnológicas críticas: Modelos de IA, infraestructura informática acelerada y software de nivel empresarial. Siga leyendo para saber cómo las fábricas de IA están ayudando a empresas y organizaciones de todo el mundo a convertir la materia prima digital más valiosa -los datos- en ingresos potenciales.



De la economía de la inferencia a la creación de valor

Antes de construir una fábrica de IA, es importante comprender la economía de la inferencia: cómo equilibrar los costes, la eficiencia energética y la creciente demanda de IA. El rendimiento se refiere al volumen de tokens que puede producir un modelo. La latencia es la cantidad de tokens que el modelo puede producir en un tiempo determinado, que a menudo se mide en tiempo hasta el primer token -el tiempo que tarda en aparecer el primer token de salida- y tiempo por token de salida, o la rapidez con la que aparece cada token adicional. Goodput es una métrica más reciente, que mide la cantidad de resultados útiles que puede ofrecer un sistema cumpliendo objetivos clave de latencia.


La experiencia del usuario es clave para cualquier aplicación de software, y lo mismo ocurre con las fábricas de IA. Un alto rendimiento significa una IA más inteligente, y una latencia más baja garantiza respuestas oportunas. Cuando estas dos medidas se equilibran adecuadamente, las fábricas de IA pueden proporcionar experiencias de usuario atractivas mediante la entrega rápida de resultados útiles. Por ejemplo, un agente de atención al cliente impulsado por IA que responde en medio segundo es mucho más atractivo y valioso que uno que responde en cinco segundos, incluso si ambos generan en última instancia el mismo número de tokens en la respuesta. Las empresas pueden aprovechar la oportunidad para poner precios competitivos a sus resultados de inferencia, lo que se traduce en un mayor potencial de ingresos por token. Medir y visualizar este equilibrio puede resultar difícil, y ahí es donde entra en juego el concepto de frontera de Pareto.


Salida de la fábrica de IA: El valor de las fichas eficientes

La frontera de Pareto, representada en la figura siguiente, ayuda a visualizar las formas más óptimas de equilibrar las compensaciones entre objetivos contrapuestos -como respuestas más rápidas frente a servir a más usuarios simultáneamente- cuando se despliega la IA a escala.

El eje vertical representa la eficiencia del rendimiento, medida en tokens por segundo (TPS), para una cantidad determinada de energía utilizada. Cuanto mayor sea este número, más solicitudes podrá gestionar simultáneamente una fábrica de IA. El eje horizontal representa el TPS para un único usuario, que representa el tiempo que tarda un modelo en dar a un usuario la primera respuesta a una pregunta. Cuanto mayor sea el valor, mejor será la experiencia del usuario. Una latencia más baja y tiempos de respuesta más rápidos son generalmente deseables para aplicaciones interactivas como chatbots y herramientas de análisis en tiempo real.


El valor máximo de la frontera de Pareto -mostrado como el valor superior de la curva- representa el mejor rendimiento para determinados conjuntos de configuraciones operativas. El objetivo es encontrar el equilibrio óptimo entre rendimiento y experiencia de usuario para diferentes cargas de trabajo y aplicaciones de IA. Las mejores fábricas de IA utilizan la computación acelerada para aumentar los tokens por vatio, lo que optimiza el rendimiento de la IA al tiempo que incrementa drásticamente la eficiencia energética en todas las fábricas y aplicaciones de IA. Hemos realizado un seguimiento de las experiencias de los usuarios: cuando se ejecutan en GPU NVIDIA H100 configuradas para funcionar a 32 tokens por segundo por usuario, frente a GPU NVIDIA B300 que funcionan a 344 tokens por segundo por usuario. Con la experiencia de usuario configurada, Blackwell Ultra ofrece una experiencia 10 veces mejor y un rendimiento casi 5 veces superior, lo que permite multiplicar por 50 el potencial de ingresos.


Cómo funciona una fábrica de IA en la práctica

Una fábrica de IA es un sistema de componentes que se unen para convertir los datos en inteligencia. No adopta necesariamente la forma de un centro de datos local de gama alta, sino que podría ser una nube dedicada a la IA o un modelo híbrido que se ejecuta en una infraestructura informática acelerada. O podría ser una infraestructura de telecomunicaciones capaz de optimizar la red y realizar inferencias en el perímetro. En la práctica, cualquier infraestructura de computación acelerada combinada con software que convierta los datos en inteligencia a través de la IA es una fábrica de IA.


Los componentes incluyen computación acelerada, redes, software, almacenamiento, sistemas y herramientas y servicios. Cuando una persona da una orden a un sistema de IA, toda la pila de la fábrica de IA se pone a trabajar. La fábrica convierte los datos en pequeñas unidades de significado, como fragmentos de imágenes, sonidos y palabras. Cada token se somete a un modelo de IA basado en la GPU, que realiza un razonamiento computacional intensivo sobre el modelo de IA para generar la mejor respuesta. Cada GPU procesa los datos de forma paralela (gracias a redes e interconexiones de alta velocidad) y simultánea. Una fábrica de IA ejecutará este proceso para diferentes solicitudes de usuarios de todo el mundo. Se trata de una inferencia en tiempo real que produce inteligencia a escala industrial.

Como las fábricas de IA unifican todo el ciclo de vida de la IA, este sistema mejora continuamente: la inferencia se registra, los casos extremos se señalan para su reentrenamiento y los bucles de optimización se ajustan con el tiempo, todo ello sin intervención manual, un ejemplo de goodput en acción. Lockheed Martin, empresa líder mundial en tecnología de seguridad, ha construido su propia fábrica de IA para dar soporte a diversos usos en su negocio. A través de su Lockheed Martin AI Center, la compañía centralizó sus cargas de trabajo de IA generativa en NVIDIA DGX SuperPOD para entrenar y personalizar modelos de IA, utilizar toda la potencia de la infraestructura especializada y reducir los costes generales de los entornos de nube.


«Con nuestra fábrica de IA local, nos encargamos de la tokenización, la formación y el despliegue», afirma Greg Forrest, director de las bases de IA de Lockheed Martin. «Nuestro DGX SuperPOD nos ayuda a procesar más de mil millones de tokens a la semana, lo que permite el ajuste fino, la generación aumentada de recuperación o la inferencia en nuestros grandes modelos lingüísticos. Esta solución evita la escalada de costes y las importantes limitaciones de las tarifas basadas en el uso de tokens.»


Tecnologías NVIDIA Full-Stack para AI Factory

Una fábrica de IA transforma la IA de una serie de experimentos aislados en un motor escalable, repetible y fiable para la innovación y el valor empresarial. NVIDIA proporciona todos los componentes necesarios para construir fábricas de IA, incluyendo computación acelerada, GPU de alto rendimiento, redes de alto ancho de banda y software optimizado.


Las GPU NVIDIA Blackwell, por ejemplo, pueden conectarse en red, refrigerarse por líquido para ahorrar energía y orquestarse con software de IA.


La plataforma de inferencia de código abierto NVIDIA Dynamo ofrece un sistema operativo para las fábricas de IA. Está diseñada para acelerar y escalar la IA con la máxima eficiencia y el mínimo coste. Al enrutar, programar y optimizar de forma inteligente las solicitudes de inferencia, Dynamo garantiza que cada ciclo de la GPU asegure la plena utilización, impulsando la producción de tokens con el máximo rendimiento.


Los sistemas NVIDIA Blackwell GB200 NVL72 y las redes InfiniBand de NVIDIA están diseñados para maximizar el rendimiento de los tokens por vatio, lo que hace que la fábrica de IA sea altamente eficiente tanto desde el punto de vista del rendimiento total como de la baja latencia.


Al validar soluciones optimizadas de pila completa, las organizaciones pueden crear y mantener sistemas de IA de vanguardia de forma eficiente. Una fábrica de IA de pila completa ayuda a las empresas a alcanzar la excelencia operativa, lo que les permite aprovechar el potencial de la IA más rápido y con mayor confianza.

Fuente: Blog de NVIDIA

Comments


Aplus_MARS_2107_Eng(1).png
undefined - Imgur(1).jpg

Siguenos

  • Facebook
  • Twitter
  • YouTube
  • Instagram
gaming

© 2016 Derechos Reservados a MasterbitzReviewHN

bottom of page