27.1 C
Colombia
lunes, julio 7, 2025

DeepMind afirma que su IA funciona mejor que los medallistas de oro de la Olimpiada Matemática Internacional


Un sistema de inteligencia synthetic desarrollado por Google Deepmind, el laboratorio de investigación de IA IA de Google, parece haber superado al medallista de oro promedio para resolver problemas de geometría en una competencia internacional de matemáticas.

El sistema, llamado Alphageometry2, es una versión mejorada de un sistema, Alphageometry, Ese profundo publicado en enero pasado. En Estudio recién publicadolos investigadores de DeepMind detrás de Alphageometry2 afirman que su IA puede resolver el 84% de todos los problemas de geometría en los últimos 25 años en la Olimpiada Matemática Internacional (IMO), un concurso de matemáticas para estudiantes de secundaria.

¿Por qué le importa a DeepMind por una competencia de matemáticas a nivel de secundaria? Bueno, el laboratorio cree que la clave para una IA más capaz podría estar al descubrir nuevas formas de resolver problemas de geometría desafiantes, específicamente Problemas de geometría euclidiana.

Probar los teoremas matemáticos, o explicar lógicamente por qué un teorema (por ejemplo, el teorema de Pitagorean) es verdadero, requiere tanto el razonamiento como la capacidad de elegir entre un rango de posibles pasos hacia una solución. Estas habilidades de resolución de problemas podrían, si es correcto DeepMind, ser un componente útil de los futuros modelos de IA de uso basic.

De hecho, el verano pasado, DeepMind demostró un sistema que combinó Alphageometry2 con Alphaproof, un modelo de IA para el razonamiento matemático formal, para resolver cuatro de seis problemas de la OMI de 2024. Además de los problemas de geometría, los enfoques como estos podrían extenderse a otras áreas de matemáticas y ciencias, por ejemplo, para ayudar con cálculos de ingeniería complejos.

Alphageometry2 tiene varios elementos centrales, incluido un modelo de idioma de la familia Gemini de modelos de IA de Google y un “motor simbólico”. El modelo Gemini ayuda al motor simbólico, que utiliza reglas matemáticas para inferir soluciones a problemas, a llegar a pruebas factibles para un teorema de geometría dado.

Un diagrama de geometría típico en la OMI.
Un diagrama típico de problemas de geometría en un examen de la OMI.Créditos de imagen:Google (abre en una nueva ventana)

Los problemas de geometría de la Olimpiada se basan en diagramas que necesitan “construcciones” para agregar antes de que puedan resolverse, como puntos, líneas o círculos. El modelo Gemini de Alphageometry2 predice qué construcciones podría ser útil para agregar a un diagrama, que el motor hace referencia a las deducciones.

Básicamente, el modelo Gemini de Alphageometry2 sugiere pasos y construcciones en un lenguaje matemático formal para el motor, que, siguiendo reglas específicas, verifica estos pasos para la consistencia lógica. Un algoritmo de búsqueda permite que Alphageometry2 realice múltiples búsquedas de soluciones en paralelo y almacene hallazgos posiblemente útiles en una base de conocimiento común.

Alphageometry2 considera que un problema se “resolverá” cuando llega a una prueba que combina las sugerencias del modelo Gemini con los principios conocidos del motor simbólico.

Debido a las complejidades de traducir pruebas en un formato que AI puede entender, hay una escasez de datos de entrenamiento de geometría utilizable. Así que DeepMind creó sus propios datos sintéticos para entrenar el modelo de lenguaje de Alphageometry2, generando más de 300 millones de teoremas y pruebas de complejidad variable.

El equipo de DeepMind seleccionó 45 problemas de geometría de las competiciones de la OMI en los últimos 25 años (de 2000 a 2024), incluidas ecuaciones lineales y ecuaciones que requieren objetos geométricos en movimiento alrededor de un avión. Luego los “tradujeron” en un conjunto más grande de 50 problemas. (Por razones técnicas, algunos problemas tuvieron que dividirse en dos).

Según el documento, Alphageometry2 resolvió 42 de los 50 problemas, eliminando la puntuación medalista de oro promedio de 40.9.

De acuerdo, hay limitaciones. Una peculiaridad técnica evita que Alphageometry2 resuelva problemas con un número variable de puntos, ecuaciones no lineales y desigualdades. Y la alfageometría2 no es técnicamente El primer sistema de IA en alcanzar el rendimiento de nivel de oro en la geometría, aunque es el primero en lograrlo con un conjunto de problemas de este tamaño.

Alphageometry2 también fue peor en otro conjunto de problemas de IMO más duros. Para un desafío adicional, el equipo de DeepMind seleccionó problemas, 29 en complete, que habían sido nominados para los exámenes de la OMI por expertos en matemáticas, pero que aún no han aparecido en una competencia. Alphageometry2 solo pudo resolver 20 de estos.

Aún así, es possible que los resultados del estudio alimenten el debate sobre si los sistemas de IA deberían basarse en la manipulación de símbolos, es decir, manipular los símbolos que representan el conocimiento utilizando reglas, o las redes neuronales aparentemente más cerebrales.

Alphageometry2 adopta un enfoque híbrido: su modelo Gemini tiene una arquitectura de pink neuronal, mientras que su motor simbólico está basado en reglas.

Los proponentes de las técnicas de redes neuronales argumentan que el comportamiento inteligente, desde el reconocimiento de voz hasta la generación de imágenes, puede surgir de nada más que grandes cantidades de datos e informática. Opuesto a los sistemas simbólicos, que resuelven tareas definiendo conjuntos de reglas de manipulación de símbolos dedicados a trabajos particulares, como editar una línea en el software program del procesador de textos, las redes neuronales intentan resolver tareas a través de la aproximación estadística y el aprendizaje de los ejemplos.

Las redes neuronales son la piedra angular de los poderosos sistemas de IA como Modelo de “razonamiento” O1 de OpenAI. Pero, los partidarios de la IA simbólica, no son el closing de todo; La IA simbólica podría estar mejor posicionada para codificar eficientemente el conocimiento del mundo, razonar a través de escenarios complejos y “explicar” cómo llegaron a una respuesta, argumentan estos partidarios.

“Es sorprendente ver el contraste entre el progreso continuo y espectacular en este tipo de puntos de referencia, y mientras tanto, modelos de idiomas, incluidos los más recientes con ‘razonamiento’, continuando luchando con algunos simples problemas de sentido común”, Vince Conitzer, un Carnegie Mellon El profesor de ciencias de la computación de la Universidad se especializa en IA, dijo a TechCrunch. “No creo que todo sea humo y espejos, pero ilustra que todavía no sabemos realmente qué comportamiento esperar del próximo sistema. Es possible que estos sistemas sean muy impactantes, por lo que necesitamos urgentemente comprenderlos y los riesgos que plantean mucho mejor ”.

Alphageometry2 quizás demuestre que los dos enfoques – Manipulación de símbolos y redes neuronales – conjunto son un camino prometedor en la búsqueda de IA generalizable. De hecho, según el artículo de DeepMind, O1, que también tiene una arquitectura de pink neuronal, no pudo resolver ninguno de los problemas de la OMI que Alphageometry2 pudo responder.

Este puede no ser el caso para siempre. En el documento, el equipo de DeepMind dijo que encontró evidencia preliminar de que el modelo de lenguaje de Alphageometry2 period capaz de generar soluciones parciales a problemas sin la ayuda del motor simbólico.

“[The] Los resultados apoyan las concepts de que los modelos de lenguaje grande pueden ser autosuficientes sin depender de herramientas externas [like symbolic engines]”, El equipo de DeepMind escribió en el periódico:” Pero hasta [model] la velocidad se mejora y alucinaciones están completamente resueltos, las herramientas se mantendrán esenciales para aplicaciones de matemáticas “.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles