22.8 C
Colombia
sábado, julio 5, 2025

¿Podemos arreglar la disaster de evaluación de la IA?


Como reportero de tecnología, a menudo me hacen preguntas como “¿Deepseek es realmente mejor que chatgpt?” o “¿El modelo antrópico es bueno?” Si no tengo ganas de convertirlo en un seminario de una hora de duración, generalmente le daré la respuesta diplomática: “Ambos son sólidos de diferentes maneras”.

La mayoría de las personas que preguntan no están definiendo “bien” de una manera precisa, y eso es justo. Es humano querer dar sentido a algo nuevo y aparentemente poderoso. Pero esa easy pregunta, ¿este modelo es bueno? Es realmente la versión cotidiana de un problema técnico mucho más complicado.

Hasta ahora, la forma en que hemos tratado de responder esa pregunta es a través de puntos de referencia. Estos le dan a los modelos un conjunto fijo de preguntas para responder y calificarlos sobre cuántos hacen bien. Pero al igual que los exámenes como el SAT (una prueba de admisión utilizada por muchas universidades estadounidenses), estos puntos de referencia no siempre reflejan habilidades más profundas. Últimamente se siente como si un nuevo modelo de IA caiga cada semana, y cada vez que una compañía lanza una, viene con puntajes frescos que muestran que superan las capacidades de los predecesores. En el papel, todo parece estar mejorando todo el tiempo.

En la práctica, no es tan easy. Así como la molienda para el SAT podría aumentar su puntaje sin mejorar su pensamiento crítico, los modelos pueden ser entrenados para optimizar los resultados de referencia sin ser realmente más inteligente, como Russell Brandon explicado en su pieza para nosotros. Como lo expresó recientemente el veterano de OpenAi y Tesla AI Andrej Karpathy, estamos viviendo una disaster de evaluación, nuestro marcador para IA ya no refleja lo que realmente queremos medir.

Los puntos de referencia se han vuelto obsoletos por algunas razones clave. Primero, la industria ha aprendido a “enseñar a la prueba”, capacitar a los modelos de IA para obtener bien en lugar de mejorar genuinamente. En segundo lugar, la contaminación de datos generalizada significa que los modelos ya pueden haber visto las preguntas de referencia, o incluso las respuestas, en algún lugar de sus datos de entrenamiento. Y finalmente, muchos puntos de referencia simplemente están al máximo. En pruebas populares como Supergeglue, los modelos ya han alcanzado o superado la precisión del 90%, lo que hace que más ganancias se sientan más como el ruido estadístico que la mejora significativa. En ese momento, los puntajes dejan de decirnos algo útil. Eso es especialmente cierto en dominios de alta calificación como la codificación, el razonamiento y la resolución de problemas STEM complejos.

Sin embargo, hay un número creciente de equipos en todo el mundo que intentan abordar la disaster de evaluación de la IA.

Un resultado es un nuevo punto de referencia llamado LivecodeBench Professional. Dibuja problemas de las Olimpiadas Algorítmicas Internacionales: Competiciones para programadores de Elite Excessive Faculty y College donde los participantes resuelven problemas desafiantes sin herramientas externas. Los principales modelos de IA actualmente manejan solo alrededor del 53% en el primer paso de problemas de problemas medianos y 0% en los más difíciles. Estas son tareas donde los expertos humanos se destacan rutinariamente.

Zihan Zheng, junior en NYU y finalista mundial en codificación competitiva, dirigió el proyecto para desarrollar LivecodeBench Professional con un equipo de medallistas de Olimpiadas. Han publicado tanto el punto de referencia como un estudio detallado que muestra que modelos de primer nivel como GPT-4O Mini y Gemini 2.5 de Google funcionan a un nivel comparable al 10% superior de los competidores humanos. En common, Zheng observó un patrón: AI se destaca por hacer planes y ejecutar tareas, pero lucha con un razonamiento algorítmico matizado. “Muestra que la IA todavía está lejos de igualar a los mejores codificadores humanos”, cube.

LivecodeBench Professional podría definir una nueva barra superior. ¿Pero qué pasa con el piso? A principios de este mes, un grupo de investigadores de múltiples universidades argumentó que Los agentes de LLM deben ser evaluados principalmente sobre la base de su riesgo, no solo de lo bien que funcionan. En los entornos del mundo actual, los entornos impulsados ​​por la aplicación, especialmente con los agentes de IA, la falta de obligación, las alucinaciones y la fragilidad son ruinosos. Un movimiento incorrecto podría significar un desastre cuando el dinero o la seguridad están en juego.

Hay otros nuevos intentos para abordar el problema. Algunos puntos de referencia, como ARC-AGI, ahora mantienen parte de su conjunto de datos en privado para evitar que los modelos de IA se optimicen en exceso para la prueba, un problema llamado “sobreajuste”. Yann Lecun de Meta ha creado LiveBench, un punto de referencia dinámico donde las preguntas evolucionan cada seis meses. El objetivo es evaluar modelos no solo en conocimiento sino también en adaptabilidad.

Xbench, un proyecto de referencia chino desarrollado por Hongshan Capital Group (anteriormente Sequoia China), es otro de estos esfuerzos. Acabo de escribir sobre eso en una historia. Xbench se construyó inicialmente en 2022, derecho después del lanzamiento de ChatGPT, como una herramienta interna para evaluar modelos para la investigación de inversiones. Con el tiempo, el equipo amplió el sistema y trajo colaboradores externos. Acaba de hacer que partes de su conjunto de preguntas estén disponibles públicamente la semana pasada.

Xbench es notable por su diseño de doble vía, que intenta cerrar la brecha entre las pruebas basadas en laboratorio y la utilidad del mundo actual. La primera pista evalúa las habilidades de razonamiento técnico al probar el conocimiento y la capacidad de STEM de un modelo para llevar a cabo investigaciones en el idioma chino. La segunda pista tiene como objetivo evaluar la utilidad práctica: mientras un modelo se desempeña en tareas en campos como el reclutamiento y el advertising. Por ejemplo, una tarea le pide a un agente que identifique cinco candidatos calificados de ingenieros de baterías; Otro tiene que coincidir con las marcas con personas influyentes relevantes de un grupo de más de 800 creadores.

El equipo detrás de Xbench tiene grandes ambiciones. Planean expandir sus capacidades de prueba en sectores como las finanzas, la ley y el diseño, y planean actualizar el conjunto de pruebas trimestralmente para evitar el estancamiento.

Esto es algo de lo que a menudo me pregunto, porque la capacidad de razonamiento duro de un modelo no necesariamente se traduce en una experiencia divertida, informativa y creativa. La mayoría de las consultas de los usuarios promedio probablemente no serán ciencia espacial. Todavía no hay mucha investigación sobre cómo evaluar de manera efectiva la creatividad de un modelo, pero me encantaría saber qué modelo sería el mejor para la escritura creativa o los proyectos de arte.

Las pruebas de preferencia humana también se han convertido en una alternativa a los puntos de referencia. Una plataforma cada vez más standard es Lmarena, que permite a los usuarios enviar preguntas y comparar respuestas de diferentes modelos uno al lado del otro, y luego elegir cuál les gusta más. Aún así, este método tiene sus defectos. Los usuarios a veces recompensan la respuesta que suena más halagador o agradable, incluso si está mal. Eso puede incentivar los modelos de “tala dulce” y sesgar los resultados a favor de las complacientes.

Los investigadores de IA están comenzando a darse cuenta y admitir que el establishment de las pruebas de IA no puede continuar. En la reciente conferencia de CVPR, el profesor de la NYU Saining Xie recurrió a los juegos finitos e infinitos del historiador James Carse para criticar la cultura hipercompetitiva de la investigación de IA. Señaló que un juego infinito es abierto, el objetivo es seguir jugando. Pero en la IA, un jugador dominante a menudo deja un gran resultado, lo que provoca una ola de documentos de seguimiento que persiguen el mismo tema estrecho. Esta cultura de raza para publicar ejerce una enorme presión sobre los investigadores y la velocidad de recompensa por la profundidad, las victorias a corto plazo sobre la visión a largo plazo. “Si la academia elige jugar un juego finito”, advirtió, “lo perderá todo”.

Encontré su enmarcado poderoso, y tal vez también se aplica a los puntos de referencia. Entonces, ¿tenemos un marcador verdaderamente completo de lo bueno que es un modelo? No precisamente. Muchas dimensiones, sociales, emocionales, interdisciplinarias) evaden la evaluación. Pero la ola de nuevos puntos de referencia sugiere un turno. A medida que el campo evoluciona, un poco de escepticismo es probablemente saludable.

Esta historia apareció originalmente enEl algoritmonuestro boletín semanal en AI. Para obtener historias como esta en su bandeja de entrada primero,Regístrese aquí.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles