24.6 C
Colombia
domingo, julio 6, 2025

AI puede solucionar errores, pero no puedo encontrarlos: el estudio de OpenAI destaca los límites de los LLM en ingeniería de software program


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Modelos de idiomas grandes (LLM) puede haber cambiado el desarrollo de software programpero las empresas deberán pensar dos veces antes de reemplazar por completo los ingenieros de software program humano con LLMS, a pesar de la afirmación del CEO de Operai, Sam Altman, de que Los modelos pueden reemplazar Ingenieros de “bajo nivel”.

En papel nuevo, Opadai Los investigadores detallan cómo desarrollaron un punto de referencia LLM llamado Swe-Lancer para probar cuánto los modelos de base pueden ganar de las tareas de ingeniería de software program independiente de la vida actual. La prueba encontró que, si bien los modelos pueden resolver errores, no pueden ver por qué existe el error y continúan cometiendo más errores.

Los investigadores encargaron tres LLM: el GPT-4O y O1 de OpenAi y Soneto Claude-3.5 de Anthrope – con 1.488 tareas de ingeniero de software program independiente de la plataforma independiente Upwork asciende a $ 1 millón en pagos. Dividieron las tareas en dos categorías: tareas de contribuyentes individuales (resolución de errores o características de implementación) y tareas de gestión (donde el modelo se reproduce como gerente que elegirá la mejor propuesta para resolver problemas).

“Los resultados indican que el trabajo independiente del mundo actual en nuestro punto de referencia sigue siendo desafiante para los modelos de idiomas fronterizos”, escriben los investigadores.

La prueba muestra que los modelos de base no pueden reemplazar completamente a los ingenieros humanos. Si bien pueden ayudar a resolver errores, no están en el nivel en el que pueden comenzar a ganar efectivo independiente por sí mismos.

Benchmarking modelos independientes

Los investigadores y otros 100 ingenieros de software program profesionales identificaron tareas potenciales en Upwork y, sin cambiar las palabras, las alimentaron a un contenedor Docker para crear el conjunto de datos SWE-Lancer. El contenedor no tiene acceso a Web y no puede acceder a GitHub “para evitar lo posible de los modelos que raspan los diferencias del código o extraen los detalles de la solicitud”, explicaron.

El equipo identificó 764 tareas de contribuyentes individuales, totalizando alrededor de $ 414,775, que van desde correcciones de errores de 15 minutos a solicitudes de funciones de una semana. Estas tareas, que incluían revisar las propuestas de Freelancer y las publicaciones de trabajo, pagarían $ 585,225.

Las tareas se agregaron a la plataforma de gastos de gastos.

Los investigadores generaron indicaciones basadas en el título y la descripción de la tarea y una instantánea de la base de código. Si hubo propuestas adicionales para resolver el problema, “también generamos una tarea de gestión utilizando la descripción del problema y la lista de propuestas”, explicaron.

A partir de aquí, los investigadores se trasladaron al desarrollo de pruebas de extremo a extremo. Escribieron pruebas de dramaturgo para cada tarea que aplica estos parches generados que luego fueron “verificados triple” por ingenieros profesionales de software program.

“Las pruebas simulan los flujos de usuarios del mundo actual, como iniciar sesión en la aplicación, realizar acciones complejas (haciendo transacciones financieras) y verificar que la solución del modelo funcione como se esperaba”, explica el documento.

Resultados de las pruebas

Después de ejecutar la prueba, los investigadores encontraron que ninguno de los modelos obtuvo el valor completo de $ 1 millón de las tareas. Claude 3.5 Sonnet, el modelo de mejor rendimiento, ganó solo $ 208,050 y resolvió el 26.2% de los problemas de contribuyentes individuales. Sin embargo, los investigadores señalan: “La mayoría de sus soluciones son incorrectas y se necesita una mayor confiabilidad para una implementación confiable”.

Los modelos funcionaron bien en la mayoría de las tareas de contribuyentes individuales, con Claude 3.5-Sonnet funcionando mejor, seguido de O1 y GPT-4O.

“Los agentes sobresalen en la localización, pero no causan causa raíz, lo que resulta en soluciones parciales o defectuosas”, explica el informe. “Los agentes identifican la fuente de un problema notablemente rápidamente, utilizando búsquedas de palabras clave en todo el repositorio para localizar rápidamente el archivo y las funciones relevantes, a menudo mucho más rápido que un humano. Sin embargo, a menudo exhiben una comprensión limitada de cómo el problema abarca múltiples componentes o archivos, y no abordan la causa raíz, lo que lleva a soluciones incorrectas o insuficientemente completas. Raramente encontramos casos en los que el agente tiene como objetivo reproducir el problema o falla debido a no encontrar el archivo o ubicación correcta para editar “.

Curiosamente, todos los modelos se desempeñaron mejor en las tareas del gerente que requirieron razonamiento para evaluar la comprensión técnica.

Estas pruebas de referencia mostraron que los modelos de IA pueden resolver algunos problemas de codificación “de bajo nivel” y todavía no pueden reemplazar a los ingenieros de software program “de bajo nivel”. Los modelos aún tomaban tiempo, a menudo cometían errores, y no podían perseguir un error para encontrar la causa raíz de los problemas de codificación. Muchos ingenieros “de bajo nivel” funcionan mejor, pero los investigadores dijeron que este puede no ser el caso por mucho tiempo.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles