Samsung presenta TRUEBench, un punto de referencia para la productividad real de la IA: GPT-5 lidera el grupo.
Masterbitz
25 sept
3 Min. de lectura
Samsung Electronics presentó hoy TRUEBench (Trustworthy Real-world Evaluation Benchmark), un referente propietario desarrollado por Samsung Research para evaluar la productividad de la IA. TRUEBench proporciona un conjunto completo de métricas para medir cómo funcionan los modelos de lenguaje grandes (LLM) en las aplicaciones de productividad en el lugar de trabajo real. Para garantizar una evaluación realista, incorpora diversos escenarios de diálogo y condiciones multilingues. Basándose en el uso interno de IA por parte de Samsung para la productividad, TRUEBench evalúa las tareas empresariales de uso común - como la generación de contenido, el análisis de datos, la resumen y la traducción - en 10 categorías y 46 subcategorías. El índice de referencia garantiza una puntuación fiable con una evaluación automática impulsada por IA basada en criterios que son diseñados y refinados en colaboración tanto por humanos como por IA.
"Samsung Research aporta una profunda experiencia y una ventaja competitiva a través de su experiencia de IA en el mundo real", dijo Paul (Kyungwhoon) Cheun, CTO de la División DX de Samsung Electronics y Jefe de Samsung Research. "Esperamos que TRUEBench establezca estándares de evaluación para la productividad y solidifique el liderazgo tecnológico de Samsung".
Recientemente, a medida que las empresas adoptan IA para tareas ha habido una creciente demanda de medición de la productividad de los LLM. Sin embargo, los puntos de referencia existentes miden principalmente el rendimiento global, son en su mayoría ingleses y se limitan a estructuras de respuesta de preguntas de un solo turno. Esto restringe su capacidad para reflejar los entornos de trabajo reales.
Para hacer frente a estas limitaciones, TRUEBench se compone de un total de 2.485 conjuntos de pruebas en 10 categorías y 12 idiomas (chino, inglés, francés, alemán, italiano, japonés, coreano, polaco, portugués, ruso, español y vietnamita) - al tiempo que apoyan escenarios interreluísticos. Los conjuntos de pruebas examinan lo que los modelos de IA pueden resolver realmente, y Samsung Research aplicó conjuntos de pruebas que van desde tan cortos como 8 caracteres hasta más de 20.000 caracteres, reflejando tareas desde simples solicitudes hasta largas síntesis de documentos.
Para evaluar el rendimiento de los modelos de IA, es importante tener criterios claros para juzgar si las respuestas de la IA son correctas. En situaciones del mundo real, no todas las intenciones de los usuarios pueden ser explícitamente indicadas en las instrucciones. TRUEBench está diseñado para permitir una evaluación realista considerando no sólo la exactitud de las respuestas, sino también las condiciones detalladas que satisfacen las necesidades implícitas de los usuarios.
Samsung Research verificó los elementos de evaluación a través de la colaboración entre humanos e IA. Primero, los notadores humanos crean los criterios de evaluación, y luego la AI la revisa para comprobar si hay errores, contradicciones o restricciones innecesarias. Después, los notadores humanos reacondicionan de nuevo los criterios, repitiendo este proceso para aplicar estándares de evaluación cada vez más precisos. Sobre la base de estos criterios verificados cruzados, se lleva a cabo una evaluación automática de los modelos de IA, minimizando el sesgo subjetivo y garantizando la coherencia. Además, para cada prueba, deben cumplirse todas las condiciones para que el modelo pase. Esto permite una puntuación más detallada y precisa en las tareas.
Las muestras de datos y tablas de clasificación de TRUEBench están disponibles en la plataforma global de código abierto Abrazar abrazar, que permite a los usuarios comparar un máximo de cinco modelos y permite comparaciones completas de rendimiento de modelos de IA de un vistazo. Además, también se publican datos sobre la duración media de los resultados de la respuesta, lo que permite comparar simultáneamente tanto el rendimiento como la eficiencia. La información detallada se puede encontrar en la página TRUEBench Amor abrazar la cara en abrazadoface.co/espacios/SamsungInvestecuvisión/TRUEBench.
Comentarios