23.7 C
Colombia
domingo, julio 6, 2025

Cómo construir un mejor punto de referencia de IA


Los límites de las pruebas tradicionales

Si las empresas de IA han tardado en responder al creciente fracaso de los puntos de referencia, se debe en parte a que el enfoque de puntuación de pruebas ha sido tan efectivo durante tanto tiempo.

Uno de los principales éxitos tempranos de la IA contemporánea fue el desafío Imagenet, una especie de antecedente de los puntos de referencia contemporáneos. Lanzado en 2010 como un desafío abierto para los investigadores, la base de datos tenía más de 3 millones de imágenes para que los sistemas de IA se clasificaran en 1,000 clases diferentes.

De manera essential, la prueba fue completamente agnóstica a los métodos, y cualquier algoritmo exitoso rápidamente ganó credibilidad independientemente de cómo funcionara. Cuando se abrió un algoritmo llamado Alexnet en 2012, con una forma no convencional de entrenamiento de GPU, se convirtió en uno de los resultados fundamentales de la IA moderna. Pocos habrían adivinado de antemano que las redes neuronales convolucionales de Alexnet serían el secreto para desbloquear el reconocimiento de imágenes, pero después de que obtuvo un buen puntaje, nadie se atrevió a disputarlo. (Uno de los desarrolladores de Alexnet, Ilya Sutskeverpasaría a cofundengai.)

Una gran parte de lo que hizo que este desafío fuera tan efectivo fue que había poca diferencia práctica entre el desafío de clasificación de objetos de Imagenet y el proceso actual de pedirle a una computadora que reconozca una imagen. Incluso si hubiera disputas sobre métodos, nadie dudaba de que el modelo de máxima puntuación tendría una ventaja cuando se implementaría en un sistema de reconocimiento de imágenes actual.

Pero en los 12 años posteriores, los investigadores de IA han aplicado el mismo enfoque de método agnóstico para tareas cada vez más generales. SWE-Bench se usa comúnmente como un proxy para una capacidad de codificación más amplia, mientras que otros puntos de referencia al estilo de examen a menudo representan la capacidad de razonamiento. Ese amplio alcance hace que sea difícil ser riguroso sobre qué mide un punto de referencia específico, lo que, a su vez, hace que sea difícil usar los hallazgos de manera responsable.

Donde las cosas se rompen

Anka Reuel, un estudiante de doctorado que se ha centrado en el problema de referencia como parte de su investigación en Stanford, se ha convencido de que el problema de la evaluación es el resultado de este impulso hacia la generalidad. “Hemos pasado de modelos específicos de tareas a modelos de propósito normal”, cube Reuel. “Ya no se trata de una sola tarea, sino un montón de tareas, por lo que la evaluación se vuelve más difícil”.

Al igual que Jacobs de la Universidad de Michigan, Reuel cree que “el problema principal con los puntos de referencia es la validez, incluso más que la implementación práctica”, señalando: “Ahí es donde se rompen muchas cosas”. Para una tarea tan complicada como la codificación, por ejemplo, es casi imposible incorporar cada escenario posible en su conjunto de problemas. Como resultado, es difícil medir si un modelo está obteniendo mejor porque es más hábil para la codificación o porque ha manipulado más efectivamente el conjunto de problemas. Y con tanta presión sobre los desarrolladores para lograr puntajes récord, los atajos son difíciles de resistir.

Para los desarrolladores, la esperanza es que el éxito en muchos puntos de referencia específicos se sumará a un modelo generalmente capaz. Pero las técnicas de AI agente significan que un solo sistema de IA puede abarcar una variedad compleja de diferentes modelos, lo que dificulta la evaluación de si la mejora en una tarea específica conducirá a la generalización. “Hay muchas más perillas que puedes convertir”, cube Sayash Kapoor, un científico informático de Princeton y un destacado crítico de prácticas descuidadas en la industria de la IA. “Cuando se trata de agentes, han renunciado a las mejores prácticas para la evaluación”.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles