33.6 C
Colombia
sábado, julio 5, 2025

Los modelos de IA todavía luchan para depurar software program, muestra Microsoft Research


Los modelos de IA de OpenAI, Anthrope y otros laboratorios de IA principales se están utilizando cada vez más para ayudar con las tareas de programación. CEO de Google Sundar Pichai dijo en octubre Ese 25% del nuevo código en la compañía es generado por AI y el CEO de Meta Mark Zuckerberg ha expresado ambiciones para implementar ampliamente modelos de codificación de IA dentro del gigante de las redes sociales.

Sin embargo, incluso algunos de los mejores modelos de hoy luchan por resolver errores de software program que no tropezarían con los desarrolladores experimentados.

A nuevo estudio De Microsoft Analysis, la división de I + D de Microsoft, revela que los modelos, incluidos los Anthrope’s Claude 3.7 soneto y Openai’s O3-Mini, No depugga muchos problemas en un punto de referencia de desarrollo de software program llamado Swe-Bench Lite. Los resultados son un recordatorio aleccionador de que, a pesar de atrevido pronunciamientos de empresas como OpenAiLa IA sigue no es rival para expertos humanos en dominios como la codificación.

Los coautores del estudio probaron nueve modelos diferentes como la columna vertebral para un “agente basado en un solo aviso” que tenía acceso a una serie de herramientas de depuración, incluido un depurador de Python. Le encargaron a este agente resolver un conjunto curado de 300 tareas de depuración de software program de SWE Bench Lite.

Según los coautores, incluso cuando están equipados con modelos más fuertes y más recientes, su agente rara vez completó más de la mitad de las tareas de depuración con éxito. El soneto de Claude 3.7 tuvo la tasa de éxito promedio más alta (48.4%), seguida de Openi’s O1 (30.2%) y O3-Mini (22.1%).

Microsoft AI Benchmark de depuración
Una tabla del estudio. El “aumento relativo” se refiere a los modelos BOOST obtenidos de estar equipados con herramientas de depuración.Créditos de imagen:Microsoft

¿Por qué la actuación decepcionante? Algunos modelos lucharon por usar las herramientas de depuración disponibles para ellos y comprender cómo las diferentes herramientas podrían ayudar con diferentes problemas. Sin embargo, el mayor problema period la escasez de datos, según los coautores. Especulan que no hay suficientes datos que representen “procesos de toma de decisiones secuenciales”, es decir, trazas de depuración humana, en los datos de entrenamiento de los modelos actuales.

“Creemos firmemente que entrenamiento o ajuste fino [models] pueden hacerlos mejores depugadores interactivos “, escribió los coautores en su estudio.” Sin embargo, esto requerirá datos especializados para cumplir dicha capacitación en el modelo, por ejemplo, datos de trayectoria que registra a los agentes que interactúan con un depurador para recopilar información necesaria antes de sugerir una solución de errores “.

Los hallazgos no son exactamente impactantes. Muchos estudios tienen se muestra Esa IA generadora de código tiende a introducir vulnerabilidades y errores de seguridad, debido a las debilidades en áreas como la capacidad de comprender la lógica de programación. Una evaluación reciente de Devinuna fashionable herramienta de codificación de IA, descubrió que solo podía completar tres de cada 20 pruebas de programación.

Pero el trabajo de Microsoft es una de las miradas más detalladas, hasta ahora un área problemática persistente para los modelos. Probablemente no se amortigua entusiasmo de los inversores Para las herramientas de codificación de asistencia con IA, pero con suerte, hará que los desarrolladores, y sus superiores, piensen dos veces antes de dejar que AI ejecute el programa de codificación.

Por lo que vale, un número creciente de líderes tecnológicos ha disputado la noción de que AI automatizará los trabajos de codificación. Cofundador de Microsoft Invoice Gates ha dicho que piensa que la programación como profesión está aquí para quedarse. También lo ha hecho Replice el CEO Amjad Masad, CEO de Okta Todd McKinnony CEO de IBM Arvind Krishna.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles