27.3 C
Colombia
sábado, julio 5, 2025

El blues de la IA – O’Reilly


Un reciente artículo en Mundo de la informática argumentó que el rendimiento de los sistemas de IA generativa, como GPT y Gemini, no es tan bueno como solía ser. No es la primera vez que escucho esta queja, aunque no sé hasta qué punto está extendida esa opinión. Pero me pregunto: ¿es correcto? Y si es así, ¿por qué?

Creo que están sucediendo algunas cosas en el mundo de la IA. En primer lugar, los desarrolladores de sistemas de IA están intentando mejorar el rendimiento de sus sistemas. (Supongo que) buscan más satisfacer a los clientes empresariales que pueden ejecutar grandes contratos que atender a personas que pagan 20 dólares al mes. Si estuviera haciendo eso, ajustaría mi modelo hacia la producción de una prosa comercial más formal. (No es una buena prosa, pero es lo que es). Podemos decir “no se limite a pegar resultados de IA en su informe” tantas veces como queramos, pero eso no significa que la gente no lo haga, y Eso significa que los desarrolladores de IA intentarán darles lo que quieren.

Aprende más rápido. Profundiza más. Ver más lejos.

Sin duda, los desarrolladores de IA están intentando crear modelos que sean más precisos. La tasa de error ha disminuido notablemente, aunque está lejos de ser cero. Pero ajustar un modelo para lograr una tasa de error baja probablemente signifique limitar su capacidad para generar respuestas fuera de lo común que consideremos brillantes, esclarecedoras o sorprendentes. Eso es útil. Cuando cut back la desviación estándar, corta las colas. El precio que se paga para minimizar las alucinaciones y otros errores es minimizar los valores atípicos correctos y “buenos”. No voy a argumentar que los desarrolladores no deberían minimizar las alucinaciones, pero hay que pagar el precio.

La “tristeza de la IA” también se ha atribuido a colapso del modelo. Creo que el colapso del modelo será un fenómeno actual; incluso he hecho el mío propio. experimento no científico—Pero es demasiado pronto para verlo en los grandes modelos de lenguaje que estamos usando. No se les vuelve a capacitar con suficiente frecuencia y la cantidad de contenido generado por IA en sus datos de capacitación sigue siendo relativamente pequeña, especialmente si sus creadores están involucrados en violaciones de derechos de autor a gran escala.

Sin embargo, existe otra posibilidad que es muy humana y que no tiene nada que ver con los modelos de lenguaje en sí. ChatGPT existe desde hace casi dos años. Cuando salió, todos nos quedamos sorprendidos de lo bueno que period. Una o dos personas señalaron la declaración profética de Samuel Johnson del siglo XVIII: “Señor, la producción de ChatGPT es como un perro que camina sobre sus patas traseras. No se hace bien; pero te sorprende descubrir que ya está hecho”.1 Bueno, todos estábamos asombrados: errores, alucinaciones y todo. Nos sorprendió descubrir que una computadora podía realmente entablar una conversación, con bastante fluidez, incluso aquellos de nosotros que habíamos probado GPT-2.

Pero ahora han pasado casi dos años. Nos hemos acostumbrado a ChatGPT y sus compañeros: Gemini, Claude, Llama, Mistral y muchos más. Estamos empezando a utilizar GenAI para el trabajo actual y el asombro ha desaparecido. Somos menos tolerantes con su palabrería obsesiva (que puede haber aumentado); no lo encontramos revelador ni unique (pero realmente no sabemos si alguna vez lo fue). Si bien es posible que la calidad de la producción del modelo de lenguaje haya empeorado en los últimos dos años, creo que la realidad es que nos hemos vuelto menos indulgentes.

Estoy seguro de que hay muchos que han probado esto mucho más rigurosamente que yo, pero he realizado dos pruebas en la mayoría de los modelos de lenguaje desde los primeros días:

  • Escribiendo un soneto petrarquista. (Un soneto petrarquista tiene un esquema de rima diferente al de un soneto shakesperiano).
  • Implementar correctamente un algoritmo conocido pero no trivial en Python. (Yo suelo utilizar la prueba de Miller-Rabin para números primos).

Los resultados de ambas pruebas son sorprendentemente similares. Hasta hace unos meses, los principales LLM no podían escribir un soneto petrarquista; podían describir correctamente un soneto petrarquista, pero si les pedías que escribieran uno, estropearían el esquema de la rima y, por lo common, te darían en su lugar un soneto shakespeariano. Fallaron incluso si incluías el esquema de rima petrarquista en el mensaje. Fallaron incluso si lo intentaste en italiano (un experimento que realizó uno de mis colegas). De repente, en la época de Claude 3, los modelos aprendieron cómo hacer Petrarca correctamente. Se pone mejor: el otro día pensé en probar dos formas poéticas más difíciles: la sextina y la villanelle. (Villanelles implican repetir dos de las líneas de manera inteligente, además de seguir un esquema de rima. A sextina requiere reutilizar las mismas palabras que riman). ¡Podrían hacerlo! No son rival para un trovador provenzal, ¡pero lo lograron!

Obtuve los mismos resultados al pedir a los modelos que produjeran un programa que implementara el algoritmo de Miller-Rabin para probar si los números grandes eran primos. Cuando GPT-3 apareció por primera vez, fue un completo fracaso: generaba código que se ejecutaba sin errores, pero me decía que números como 21 eran primos. Gemini hizo lo mismo, aunque después de varios intentos, descortésmente culpó del problema a las bibliotecas de Python por el cálculo con grandes números. (Supongo que no le gustan los usuarios que dicen: “Lo siento, eso está mal otra vez. ¿Qué estás haciendo que es incorrecto?”). Ahora implementan el algoritmo correctamente, al menos la última vez que lo intenté. (Su millaje puede variar).

Mi éxito no significa que no haya lugar para la frustración. Le pregunté a ChatGPT cómo mejorar los programas que funcionaban correctamente pero que tenían problemas conocidos. En algunos casos conocía el problema y la solución; en algunos casos, entendí el problema pero no cómo solucionarlo. La primera vez que lo intente, probablemente quedará impresionado: aunque “poner más programa en funciones y usar nombres de variables más descriptivos” puede no ser lo que está buscando, nunca es un mal consejo. Sin embargo, la segunda o tercera vez te darás cuenta de que siempre recibes consejos similares y, aunque pocas personas estarían en desacuerdo, esos consejos no son realmente reveladores. “Me sorprendió descubrir que estaba hecho” rápidamente se convirtió en “no está bien hecho”.

Esta experiencia probablemente refleja una limitación basic de los modelos lingüísticos. Después de todo, no son “inteligentes” como tales. Hasta que sepamos lo contrario, simplemente están prediciendo lo que debería suceder a continuación basándose en el análisis de los datos de entrenamiento. ¿Cuánto del código en GitHub o en Stack Overflow realmente demuestra buenas prácticas de codificación? ¿Cuánto de esto es bastante vulgar, como mi propio código? Apuesto a que domina el último grupo, y eso es lo que se refleja en el resultado de un LLM. Pensando en el perro de Johnson, realmente me sorprende descubrir que lo hicieron, aunque tal vez no por la razón que la mayoría de la gente esperaría. Claramente, hay muchas cosas en Web que no están mal. Pero hay muchas cosas que no son tan buenas como podrían ser y eso no debería sorprender a nadie. Lo desafortunado es que el volumen de contenido “bastante bueno, pero no tan bueno como podría ser” tiende a dominar la producción de un modelo de lenguaje.

Ése es el gran problema al que se enfrentan los desarrolladores de modelos de lenguaje. ¿Cómo obtenemos respuestas que sean reveladoras, encantadoras y mejores que el promedio de lo que hay en Web? La sorpresa inicial ha pasado y la IA está siendo juzgada por sus méritos. ¿Seguirá la IA cumpliendo su promesa, o simplemente diremos: “Es una IA aburrida y aburrida”, incluso cuando su producción se infiltra en todos los aspectos de nuestras vidas? Puede que haya algo de verdad en la concept de que estamos cambiando respuestas encantadoras por respuestas confiables, y eso no es malo. Pero también necesitamos deleite y perspicacia. ¿Cómo logrará eso la IA?


Notas a pie de página

De Boswell’s vida de johnson (1791); posiblemente ligeramente modificado.



Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles