top of page
20220530_Trinity_En_Aplus (1)(1).jpg

NVIDIA destaca las ventajas económicas de su plataforma de inferencia

Foto del escritor: MasterbitzMasterbitz

Empresas de todos los sectores están desplegando servicios de IA este año. Para Microsoft, Oracle, Perplexity, Snap y cientos de otras empresas líderes, el uso de la plataforma de inferencia de IA de NVIDIA -una pila completa que comprende silicio, sistemas y software de primera clase- es la clave para ofrecer inferencia de alto rendimiento y baja latencia y permitir grandes experiencias de usuario al tiempo que se reducen los costes. Los avances de NVIDIA en la optimización del software de inferencia y la plataforma NVIDIA Hopper están ayudando a las industrias a servir los últimos modelos generativos de IA, ofreciendo excelentes experiencias de usuario y optimizando el coste total de propiedad. La plataforma Hopper también ayuda a proporcionar hasta 15 veces más eficiencia energética para las cargas de trabajo de inferencia en comparación con las generaciones anteriores.



La inferencia de IA es notoriamente difícil, ya que requiere muchos pasos para lograr el equilibrio adecuado entre rendimiento y experiencia del usuario. Pero el objetivo subyacente es sencillo: generar más tokens a menor coste. Los tokens representan palabras en un sistema de modelo de lenguaje extenso (LLM) y, dado que los servicios de inferencia de IA suelen cobrar por cada millón de tokens generados, este objetivo ofrece el rendimiento más visible de las inversiones en IA y la energía utilizada por tarea. La optimización completa del software es la clave para mejorar el rendimiento de la inferencia de IA y alcanzar este objetivo.


Rendimiento rentable para el usuario

Las empresas se enfrentan a menudo al reto de equilibrar el rendimiento y los costes de las cargas de trabajo de inferencia. Mientras que algunos clientes o casos de uso pueden funcionar con un modelo preconfigurado o alojado, otros pueden requerir personalización. Las tecnologías NVIDIA simplifican la implantación de modelos al tiempo que optimizan el coste y el rendimiento de las cargas de trabajo de inferencia de IA. Además, los clientes pueden experimentar flexibilidad y personalización con los modelos que elijan implementar.


Los microservicios NVIDIA NIM, el servidor de inferencia NVIDIA Triton y la librería NVIDIA TensorRT son algunas de las soluciones de inferencia que NVIDIA ofrece para adaptarse a las necesidades de los usuarios:


Los microservicios de inferencia NVIDIA NIM están preempaquetados y optimizados para implantar rápidamente modelos de IA en cualquier infraestructura (nube, centros de datos, perímetros o estaciones de trabajo).

NVIDIA Triton Inference Server, uno de los proyectos de código abierto más populares de la compañía, permite a los usuarios empaquetar y servir cualquier modelo con independencia del marco de IA en el que se haya entrenado.

NVIDIA TensorRT es una biblioteca de inferencia de aprendizaje profundo de alto rendimiento que incluye optimizaciones de modelos y tiempo de ejecución para ofrecer inferencia de baja latencia y alto rendimiento para aplicaciones de producción.


Disponible en los principales mercados en la nube, la plataforma de software NVIDIA AI Enterprise incluye todas estas soluciones y proporciona soporte, estabilidad, capacidad de gestión y seguridad de nivel empresarial.


Con la plataforma de inferencia de IA de NVIDIA, agnóstica en cuanto a marcos de trabajo, las empresas ahorran en productividad, desarrollo y costes de infraestructura y configuración. El uso de las tecnologías NVIDIA también puede aumentar los ingresos empresariales, ya que ayuda a las empresas a evitar tiempos de inactividad y transacciones fraudulentas, aumentar las tasas de conversión de las compras de comercio electrónico y generar nuevas fuentes de ingresos impulsadas por la IA.


Inferencia LLM basada en la nube

Para facilitar la implantación de LLM, NVIDIA ha colaborado estrechamente con todos los principales proveedores de servicios en la nube para garantizar que la plataforma de inferencia NVIDIA pueda implantarse sin problemas en la nube con una necesidad mínima o nula de código. NVIDIA NIM está integrada con servicios nativos de la nube como:


Amazon SageMaker AI, Amazon Bedrock Marketplace, Amazon Elastic Kubernetes Service

Vertex AI de Google Cloud, Google Kubernetes Engine

Microsoft Azure AI Foundry próximamente, Azure Kubernetes Service

Herramientas de ciencia de datos de Oracle Cloud Infrastructure, Oracle Cloud Infrastructure Kubernetes Engine


Además, para implantaciones de inferencia personalizadas, NVIDIA Triton Inference Server está profundamente integrado en los principales proveedores de servicios en la nube.


Por ejemplo, con la plataforma OCI Data Science, implantar NVIDIA Triton es tan sencillo como activar un interruptor en los argumentos de la línea de comandos durante la implantación del modelo, lo que lanza instantáneamente un endpoint de inferencia NVIDIA Triton.


Del mismo modo, con Azure Machine Learning, los usuarios pueden implementar NVIDIA Triton sin código a través de Azure Machine Learning Studio o con código completo mediante Azure Machine Learning CLI. AWS proporciona implementación con un solo clic para NVIDIA NIM desde SageMaker Marketplace y Google Cloud proporciona una opción de implementación con un solo clic en Google Kubernetes Engine (GKE). Google Cloud proporciona una opción de implementación con un solo clic en Google Kubernetes Engine, mientras que AWS ofrece NVIDIA Triton en sus contenedores de AWS Deep Learning.


La plataforma de inferencia de IA de NVIDIA también utiliza métodos de comunicación populares para ofrecer predicciones de IA, ajustándose automáticamente para adaptarse a las necesidades crecientes y cambiantes de los usuarios dentro de una infraestructura basada en la nube.


Desde la aceleración de los LLM hasta la mejora de los flujos de trabajo creativos y la transformación de la gestión de acuerdos, la plataforma de inferencia de IA de NVIDIA está impulsando el impacto en el mundo real en todos los sectores. Descubra cómo la colaboración y la innovación están permitiendo a las siguientes organizaciones alcanzar nuevos niveles de eficiencia y escalabilidad.


El artículo completo puede consultarse aquí.


Obtenga más información sobre cómo NVIDIA está proporcionando resultados de rendimiento de inferencia revolucionarios y manténgase al día con las últimas actualizaciones de rendimiento de inferencia de IA.


Fuente: Blog de NVIDIA

3 visualizaciones0 comentarios

Comments


Aplus_MARS_2107_Eng(1).png
gaming2

Siguenos

  • Facebook
  • Twitter
  • YouTube
  • Instagram
gaming

© 2016 Derechos Reservados a MasterbitzReviewHN

bottom of page