Hacia finales de 2024, ofreció una visión toda la charla sobre si las “leyes de escala” de la IA chocábamos contra un muro técnico de la vida actual. Sostuve que la pregunta importa menos de lo que muchos piensan: existen sistemas de IA lo suficientemente poderoso profundamente cambiar nuestro mundoy los próximos años estarán definidos por el progreso en la IA, se cumplan o no las leyes de escala.
Siempre es arriesgado hacer pronósticos sobre la IA, porque se puede demostrar que estás equivocado muy rápidamente.. Ya es bastante vergonzoso como escritor cuando sus predicciones para el próximo año no se cumplen. Cuando tus predicciones para el próximo semana ¿Se ha demostrado que son falsos? Eso es bastante malo.
Pero menos de una semana después de que escribí ese artículo, el informe de fin de año de OpenAI serie de lanzamientos incluyó su último modelo de lenguaje grande (LLM), o3. o3 no exactamente desmiente las afirmaciones de que las leyes de escala que solían definir el progreso de la IA ya no funcionan tan bien en el futuro, pero definitivamente pone La mentira sobre la afirmación de que el progreso de la IA está chocando contra una pared..
O3 es realmente impresionante. De hecho, para apreciar lo impresionante que es, tendremos que hacer una pequeña digresión en la ciencia de cómo medimos los sistemas de IA.
Pruebas estandarizadas para robots
Si desea comparar dos modelos de lenguaje, desea medir el desempeño de cada uno de ellos en un conjunto de problemas que no han visto antes. Eso es más difícil de lo que parece: dado que estos modelos reciben enormes cantidades de texto como parte del entrenamiento, ya han visto la mayoría de las pruebas antes.
Entonces, lo que hacen los investigadores del aprendizaje automático es construir puntos de referenciapruebas para sistemas de IA que nos permiten compararlos directamente entre sí y con el desempeño humano en un gama de tareas: matemáticas, programación, lectura e interpretación de textos, lo que sea. Por un tiempo, nosotros IA probadas sobre la Olimpiada de Matemáticas de Estados Unidos, un campeonato de matemáticas y sobre problemas de física, biología y química.
El problema es que las IA han mejorado tan rápido que siguen haciendo que los puntos de referencia sean inútiles. Una vez que una IA se desempeña lo suficientemente bien en un punto de referencia, decimos que el punto de referencia está “saturado” lo que significa que ya no resulta útil distinguir qué tan capaces son las IA, porque todas obtienen puntuaciones casi perfectas.
2024 fue el año en el que un punto de referencia tras otro para las capacidades de IA se saturó tanto como el Océano Pacífico. Solíamos probar las IA en comparación con la física, la biología y la química. punto de referencia llamado GPQA Esto period tan difícil que incluso los estudiantes de doctorado en los campos correspondientes generalmente obtenían menos del 70 por ciento. Pero las IA ahora funcionan mejor que los humanos con doctorados relevantes, por lo que no es una buena manera de medir futuros avances.
También en la clasificación para la Olimpiada de Matemáticas, los modelos ahora actuar entre los mejores humanos. Un punto de referencia llamado MMLU estaba destinado a medir la comprensión del lenguaje con preguntas en muchos dominios diferentes. Los mejores modelos tienen saturó ese también. Un punto de referencia llamado ARC-AGI estaba destinado a ser realmente, realmente difícil y mide la inteligencia humana common — pero o3 (cuando está sintonizado para la tarea) logra un bombazo 88 por ciento en ello.
Siempre podemos crear más puntos de referencia. (Lo estamos haciendo – ARC-AGI-2 será anunciado pronto, y se supone que será mucho más difícil.) Pero al ritmo que avanzan las IA, cada nuevo punto de referencia solo dura unos pocos años, en el mejor de los casos. Y quizás lo más importante para aquellos de nosotros que no somos investigadores de aprendizaje automático es que los puntos de referencia tienen que medir cada vez más el desempeño de la IA en tareas que los humanos no podrían realizar por sí mismos para describir de qué son y de qué no son capaces.
Sí, las IA todavía fabrican errores estúpidos y molestos. Pero si han pasado seis meses desde que prestaste atención, o si solo has jugado con las versiones gratuitas de modelos de lenguaje disponibles en línea, que están muy por detrás de la frontera, estás sobreestimando cuántos errores estúpidos y molestos cometen, y subestimar su capacidad para realizar tareas difíciles e intelectualmente exigentes.
Esta semana en Time, Garrison Pretty argumentó que el progreso de la IA no “chocar contra una pared” hasta volverse invisibleprincipalmente mejorando a pasos agigantados en formas a las que la gente no presta atención. (Nunca he intentado que una IA resuelva problemas de programación de élite o de biología, matemáticas o física, y de todos modos no podría decir si period correcto).
Cualquiera puede notar la diferencia entre un niño de 5 años que aprende aritmética y un estudiante de secundaria que aprende cálculo, por lo que el progreso entre esos puntos parece y se siente tangible. La mayoría de nosotros realmente no podemos distinguir entre un estudiante de primer año de matemáticas y los matemáticos más genios del mundo, por lo que el progreso de la IA entre esos puntos no ha parecido gran cosa.
Pero ese progreso es, en realidad, un gran problema. La forma en que la IA realmente cambiará nuestro mundo es automatizando una enorme cantidad de trabajo intelectual que alguna vez fue realizado por humanos, y tres cosas impulsarán su capacidad para lograrlo.
Uno cada vez es más barato. o3 obtiene resultados sorprendentes, pero puede Cuesta más de 1.000 dólares pensar en una pregunta difícil. y llegar a una respuesta. Sin embargo, la publicación de fin de año de DeepSeek de China indicó que podría ser posible obtener un rendimiento de alta calidad a un precio muy bajo.
El segundo son las mejoras en la forma en que interactuamos con él. Todas las personas con las que hablo sobre productos de IA confían en que hay toneladas de innovación por lograr en la forma en que interactuamos con las IA, cómo verifican su trabajo y cómo configuramos qué IA usar para cada tarea. Podría imaginarse un sistema en el que normalmente un chatbot de nivel medio hace el trabajo pero puede llamar internamente a un modelo más caro cuando su pregunta lo necesita. Todo esto es trabajo de producto versus puro trabajo técnico, y es lo que advertí en diciembre que transformaría nuestro mundo incluso si se detuviera todo el progreso de la IA.
Y el tercero es que los sistemas de inteligencia synthetic se vuelven más inteligentes y, a pesar de todas las declaraciones sobre chocar contra las paredes, parece que todavía lo están haciendo. Los sistemas más nuevos son mejores para razonar, mejores para resolver problemas y, en common, están más cerca de ser expertos en una amplia gama de campos. Hasta cierto punto, ni siquiera sabemos qué tan inteligentes son porque todavía estamos luchando por descubrir cómo medirlo una vez que ya no seamos capaces de usar pruebas contra la experiencia humana.
Creo que estas son las tres fuerzas que definirán los próximos años: así de importante es la IA. Nos guste o no (y a mí tampoco me gusta mucho; no creo que esta transición que cambiará el mundo sea ser manejado responsablemente en absoluto) ninguno de los tres está chocando contra un muro, y cualquiera de los tres sería suficiente para cambiar de forma duradera el mundo en el que vivimos.
Una versión de esta historia apareció originalmente en el futuro perfecto hoja informativa. ¡Regístrate aquí!