Intel optimiza PyTorch para Llama 2 en Arc A770, FP16 de mayor precisión
Intel acaba de anunciar optimizaciones de PyTorch (IPEX) para aprovechar las funciones de aceleración de IA de sus GPU Arc "Alchemist".PyTorch es una popular librería de aprendizaje automático que suele asociarse a las GPU NVIDIA, pero en realidad es independiente de la plataforma. Puede ejecutarse en una gran variedad de hardware, incluidas CPU y GPU. Sin embargo, el rendimiento puede no ser óptimo sin optimizaciones específicas. Intel ofrece dichas optimizaciones a través de Intel Extension for PyTorch (IPEX), que amplía PyTorch con optimizaciones diseñadas específicamente para el hardware informático de Intel.
Intel ha publicado una entrada en su blog en la que detalla cómo ejecutar el modelo de lenguaje de gran tamaño Llama 2 de Meta AI en su tarjeta gráfica Arc "Alchemist" A770. El modelo requiere 14 GB de RAM de GPU, por lo que se recomienda una versión de 16 GB de la A770. Este desarrollo podría considerarse una respuesta directa a la herramienta Chat with RTX de NVIDIA, que permite a los usuarios de GeForce con GPU de >8 GB de la serie RTX 30 "Ampere" y RTX 40 "Ada" ejecutar modelos PyTorch-LLM en sus tarjetas gráficas. NVIDIA consigue un menor uso de VRAM distribuyendo versiones cuantificadas INT4 de los modelos, mientras que Intel utiliza una versión FP16 de mayor precisión. En teoría, esto no debería tener un impacto significativo en los resultados. Esta entrada del blog de Intel proporciona instrucciones sobre cómo configurar la inferencia de Llama 2 con PyTorch (IPEX) en el A770.
Comments