Gemma de Google optimizado para ejecutarse en GPUs NVIDIA, Gemma llegará al chat con RTX
NVIDIA, en colaboración con Google, acaba de lanzar optimizaciones en todas las plataformas de IA de NVIDIA para Gemma, los nuevos y ligeros modelos de lenguaje abierto de 2.000 millones y 7.000 millones de parámetros de Google que pueden ejecutarse en cualquier lugar, lo que reduce costes y acelera el trabajo de innovación para casos de uso específicos.
Los equipos de ambas compañías han trabajado en estrecha colaboración para acelerar el rendimiento de Gemma -construido a partir de la misma investigación y tecnología utilizadas para crear los modelos Gemini- con NVIDIA TensorRT-LLM, una librería de código abierto para optimizar la inferencia de grandes modelos lingüísticos, cuando se ejecuta en las GPU NVIDIA del centro de datos, en la nube y en PC con GPU NVIDIA RTX. Esto permite a los desarrolladores utilizar la base instalada de más de 100 millones de GPU NVIDIA RTX disponibles en los PC de IA de alto rendimiento de todo el mundo.
Los desarrolladores también pueden ejecutar Gemma en las GPU NVIDIA en la nube, lo que incluye las instancias A3 de Google Cloud basadas en la GPU H100 Tensor Core y, próximamente, las GPU H200 Tensor Core de NVIDIA -con 141 GB de memoria HBM3e a 4,8 terabytes por segundo- que Google desplegará este año.
Además, los desarrolladores empresariales pueden aprovechar el rico ecosistema de herramientas de NVIDIA, que incluye NVIDIA AI Enterprise con el framework NeMo y TensorRT-LLM, para ajustar Gemma e implantar el modelo optimizado en su aplicación de producción.
Obtenga más información sobre cómo TensorRT-LLM está acelerando la inferencia para Gemma, junto con información adicional para desarrolladores. Esto incluye varios puntos de control del modelo de Gemma y la versión cuantificada FP8 del modelo, todo optimizado con TensorRT-LLM.
Experimenta Gemma 2B y Gemma 7B directamente desde tu navegador en NVIDIA AI Playground.
Gemma llegará al chat con RTX
Chat with RTX, una demostración técnica de NVIDIA que utiliza la generación aumentada por recuperación y el software TensorRT-LLM para proporcionar a los usuarios funciones de IA generativa en sus PC Windows locales con tecnología RTX, se incorporará próximamente a Gemma.
Chat with RTX permite a los usuarios personalizar un chatbot con sus propios datos conectando fácilmente los archivos locales de un PC a un gran modelo de lenguaje.
Como el modelo se ejecuta localmente, proporciona resultados con rapidez y los datos del usuario permanecen en el dispositivo. En lugar de depender de servicios LLM basados en la nube, Chat with RTX permite a los usuarios procesar datos confidenciales en un PC local sin necesidad de compartirlos con terceros ni tener conexión a Internet.
コメント