25.3 C
Colombia
lunes, julio 7, 2025

Los chatbots están haciendo trampa en sus pruebas de referencia


Las empresas generativas de la AI han estado vendiendo una narración de progresos sin precedentes y interminables. La semana pasada, Openai introducido GPT-4.5 como su “mejor y mejor modelo para chat hasta ahora”. A principios de febrero, Google llamado Su última versión de Gemini “El mejor modelo AI del mundo”. Y en enero, la compañía china Deekseek promocionado Su modelo R1 es tan poderoso como el modelo O1 de OpenAI, que Sam Altman había llamado “El modelo más inteligente del mundo” el mes anterior.

Sin embargo, hay evidencia creciente de que progreso es ralentización abajo y que el chatbot con alimentación de LLM ya puede estar cerca de su pico. Esto es preocupante, dado que la promesa de avance se ha convertido en un problema político; Se han destinado cantidades masivas de tierra, energía y dinero para impulsar la tecnología. ¿Cuánto está mejorando realmente? ¿Cuánto mejor puede obtener? Estas son preguntas importantes, y son casi imposibles de responder porque las pruebas que miden el progreso de la IA no funcionan. (El atlántico entró en una asociación corporativa con OpenAI en 2024. La división editorial de El atlántico opera independientemente de la división de negocios).

A diferencia de los programas informáticos convencionales, Era AI está diseñada para no producir respuestas precisas a ciertas preguntas, sino para generalizar. Un chatbot necesita poder responder preguntas que no se haya entrenado específicamente para responder, como un estudiante humano que aprende no solo el hecho de que 2 x 3 = 6 sino también cómo multiplicar dos números. Un modelo que no puede hacer esto no sería capaz de “razonar” o hacer contribuciones significativas a la ciencia, como lo prometen las compañías de IA. La generalización puede ser difícil de medir, y aún más complicado está demostrando que un modelo está mejorando en eso. Para medir el éxito de su trabajo, las empresas citan pruebas de referencia estándar de la industria cada vez que lanzan un nuevo modelo. Las pruebas supuestamente contienen preguntas que los modelos no han visto, lo que demuestra que no están simplemente memorizando hechos.

Sin embargo, en los últimos dos años, los investigadores han publicado estudios y experimentos mostrando ese chatgpt, Deepseek, Llama, Mistral, Gemma de Google (el “Acceso abierto” primo de su producto Géminis), Microsoft’s Phi y Alibaba’s Qwen han sido entrenados en el texto de las populares pruebas de referencia, contaminar la legitimidad de sus puntajes. Piense en ello como un estudiante humano que roba y memoriza un examen de matemáticas, engañando a su maestro para que piense que ha aprendido a hacer una división larga.

El problema se conoce como contaminación de referencia. Está tan extendido que un boletín de la industria concluyó en octubre que “Las pruebas de referencia no tienen sentido. ” Sin embargo, a pesar de cómo establecido El problema es que las compañías de IA siguen citando estas pruebas como los principales indicadores de progreso. (Un portavoz de Google Deepmind me dijo que la compañía toma el problema en serio y constantemente busca nuevas formas de evaluar sus modelos. Ninguna otra compañía mencionada en este artículo comentó sobre el tema).

La contaminación de referencia no es necesariamente intencional. La mayoría de los puntos de referencia se publican en Web, y los modelos están capacitados en grandes franjas de texto cosechados de Web. Los conjuntos de datos de capacitación contienen tanto texto, de hecho, que encontrar y filtrar los puntos de referencia es extremadamente difícil. Cuando Microsoft lanzó un nuevo modelo de idioma en diciembre, un investigador en el equipo alardeado Acerca de “agresivamente” eliminar puntos de referencia en sus datos de capacitación, pero la técnica acompañante del modelo informe Admitió que los métodos del equipo “no eran efectivos en todos los escenarios”.

Uno de los puntos de referencia más comúnmente citados se llama comprensión masiva de idiomas multitarea. Consta de aproximadamente 16,000 preguntas de opción múltiple que cubren 57 sujetosincluyendo anatomía, filosofía, advertising and marketing, nutrición, religión, matemáticas y programación. Durante el año pasado, Opadai, Google, Microsoft, Metay Veterano Todos anunciaron los puntajes de sus modelos en MMLU, y sin embargo, los investigadores han demostrado que los modelos de todas estas compañías han sido capacitados en sus preguntas.

¿Cómo saben los investigadores que los modelos “cerrados”, como los de Operai, han sido entrenados en puntos de referencia? Sus técnicas son inteligentes y revelan cosas interesantes sobre cómo funcionan los modelos de idiomas grandes.

Un equipo de investigación tomó preguntas de MMLU y preguntó Chatgpt no para las respuestas correctas sino para un específico incorrecto opción de opción múltiple. ChatGPT pudo proporcionar el texto exacto de respuestas incorrectas en MMLU el 57 por ciento del tiempo, algo que probablemente no podría hacer a menos que haya sido capacitado en la prueba, porque las opciones se seleccionan de un número infinito de respuestas incorrectas.

Otro equipo de investigadores de la Universidad de Microsoft y Xiamen, en China, investigado El rendimiento de GPT-4 en las preguntas de los concursos de programación organizados en el Codeforces sitio net. Las competiciones son ampliamente consideradas como una forma para que los programadores agudizen sus habilidades. ¿Cómo fue GPT-4? Bastante bien en las preguntas que se publicaron en línea antes de septiembre de 2021. Sobre las preguntas publicadas después de esa fecha, su rendimiento se derrumbó. Esa versión de GPT-4 fue entrenado Solo en datos de antes de septiembre de 2021, llevando a los investigadores a sugerir que había memorizado las preguntas y “arrojando dudas sobre sus habilidades de razonamiento reales”, según los investigadores. Dando más apoyo a esta hipótesis, otros investigadores han demostrado que el rendimiento de GPT-4 en las preguntas de codificación es Mejor para preguntas que aparecen con más frecuencia en Web. (Cuanto más a menudo un modelo ve el mismo texto, más possible es memorizarlo).

¿Se puede resolver el problema de contaminación de referencia? Las compañías de IA e investigadores independientes han hecho algunas sugerencias. Uno es actualizar los puntos de referencia constantemente con preguntas basadas en nuevas fuentes de información. Esto podría evitar que las respuestas aparezcan en los datos de capacitación, pero también rompe el concepto de un punto de referencia: una prueba estándar que proporciona resultados consistentes y estables para fines de comparación. Otro enfoque es adoptado por un sitio net llamado Chatbot Areaque enfrenta el estilo de gladiador, y permite a los usuarios elegir qué modelo ofrece las mejores respuestas a sus preguntas. Este enfoque es inmune a las preocupaciones de contaminación, pero es subjetivo y igualmente inestable. Otros han sugerido el uso de un LLM para juez el rendimiento de otro, un proceso que es no del todo confiable. Ninguno de estos métodos ofrece mediciones seguras de la capacidad de LLM para generalizar.

Aunque las empresas de IA han comenzado a hablar de “modelos de razonamiento“, La tecnología es en gran medida la misma que fue cuando se lanzó ChatGPT en noviembre de 2022. Los LLM siguen siendo algoritmos de predicción de palabras: juntan respuestas basadas en obras escritas por autores, académicos y bloggers. Con uso informal, ChatGPT parece estar “descubriendo” las respuestas a sus consultas. Pero, ¿es eso lo que está sucediendo, o es muy difícil crear preguntas que no estén en sus corpus insondablemente masivos?

Mientras tanto, la industria de la IA se está ejecutando ostentosamente en el rojo. Las compañías de IA aún no han descubierto cómo obtener ganancias de la construcción de modelos de Basis. Podrían usar una buena historia sobre el progreso.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles