iPhone 17 Pro Successfully Demonstrated Running A 400B Large Language Model, A Feat That Requires Minimum Of 200GB Memory Even When Compressed

Masterbitz
hace 1 día
2 Min. de lectura

Los modelos de lenguaje grande con 400 mil millones de parámetros solo se pueden ejecutar en hardware capaz con montones de memoria, ya que incluso una versión cuantificada o comprimida requiere un mínimo de 200 GB de RAM. En cuanto a estos requisitos robustos, el iPhone 17 Pro nunca sería la primera opción para ejecutar un LLM 400B, pero la evidencia de video muestra lo contrario, ya que una persona ha demostrado que la generación actual de Apple ha logrado lo imposible. Sin embargo, debe tenerse en cuenta que esta hazaña no se podría lograr sin algunos trucos inteligentes, así que veamos esos detalles.

Como era de esperar, el iPhone 17 Pro solo puede generar 0,6 tokens por segundo, pero incluso superar este desalentador desafío fue impresionante

Un proyecto de código abierto llamado Flash-MoE se ejecutaba en un iPhone 17 Pro, con @anemll mostrando que si bien el buque insignia puede ejecutar el modelo increíblemente agotador, no está exento de sus desventajas. Por un lado, si aún no lo notó en el video a continuación, la velocidad del token es terriblemente lenta a 0.6t / s, que se genera alrededor de una palabra cada 1.5 a 2 segundos.

Suponiendo que tengas suficiente paciencia o que puedas mantenerte ocupado con otras tareas mientras el iPhone 17 Pro genera la consulta para ti, creemos que muchos usuarios comenzarán a sacarse el cabello cuando sean testigos de este lento rendimiento. Por otra parte, el hecho de que un LLM 400B se estuviera ejecutando en un teléfono inteligente, independientemente de las velocidades, indica que con algunas optimizaciones más, es más que posible ejecutar modelos de lenguaje grande en el dispositivo en los teléfonos.

En cuanto a cómo se logró esto, en lugar de cargar todo el LLM en la memoria, lo que sería imposible ya que el iPhone 17 Pro solo se envía con 12 GB de RAM LPDDR5X, Flash-MoE está aprovechando el SSD del dispositivo para transmitir directamente a la GPU. Además, ‘MoE’ significa modelo de Mezcla de Expertos, por lo que solo requiere una fracción de esos parámetros 400B para cada palabra que genera.

Otro beneficio es que está obteniendo un 100 por ciento de privacidad cuando usa un LLM localizado mientras obtiene respuestas sin el uso de una conexión a Internet activa, aunque la batería del iPhone 17 Pro estará muy gravada. Los desarrolladores también recurren a versiones comprimidas o ‘Cuantificadas’ de estos modelos de lenguaje grande, pero uno con 400 mil millones de parámetros requeriría un mínimo de 200 GB de RAM, lo que hace imposible ejecutarlo en el iPhone 17 Pro.

En resumen, la última demostración muestra que si está dispuesto a pasar por el minucioso proceso de generación de consultas a 0.6 tokens por segundo, puede ejecutar un LLM de 400B en un teléfono inteligente. Por otra parte, hay una gran diferencia entre ejecutar un modelo de lenguaje grande y encenderlo de una manera utilizable.

Fuente de noticias: @anemll