34.7 C
Colombia
domingo, julio 6, 2025

La nueva IA de Deepmind se enseña a jugar a Minecraft desde cero


Mi sobrino no pudo dejar de jugar Minecraft cuando tenía siete años.

Uno de los juegos más populares de la historia, Minecraft es un mundo abierto en el que los jugadores construyen terreno y crean varios artículos y herramientas. Nadie le mostró cómo navegar por el juego. Pero con el tiempo, aprendió los conceptos básicos a través de prueba y error, eventualmente descubriendo cómo crear diseños complejos, como parques temáticos y ciudades y pueblos trabajadores enteros. Pero primero, tuvo que reunir materiales, algunos de los cuales, en specific, son difíciles de recolectar.

Ahora, un nuevo Deepmind ai puede hacer lo mismo.

Sin acceso a ningún juego humano como ejemplo, la IA se enseñó las reglas, la física y las maniobras complejas necesarias para extraer diamantes. “Aplicado fuera de la caja, Dreamer es, hasta donde sabemos, el primer algoritmo en recopilar diamantes en Minecraft desde cero sin datos o planes de estudio humanos”, escribió el autor de estudio, Danijar Hafner, En una publicación de weblog.

Pero jugar Minecraft No es el punto. El científico de AI ha estado después de los algoritmos generales que pueden resolver tareas en una amplia gama de problemas, no solo en los que están entrenados. Aunque algunos de los modelos actuales pueden generalizar una habilidad en problemas similares, luchan por transferir esas habilidades a tareas más complejas que requieren múltiples pasos.

En el mundo limitado de MinecraftDreamer parecía tener esa flexibilidad. Después de aprender un modelo de su entorno, podría “imaginar” escenarios futuros para mejorar su toma de decisiones en cada paso y, en última instancia, pudo recolectar ese esquivo diamante.

El trabajo “se trata de capacitar a un solo algoritmo para funcionar bien en diversas … tareas”, dicho Keyon Vafa de Harvard, que no participó en el estudio, a Naturaleza. “Este es un problema notoriamente difícil y los resultados son fantásticos”.

Aprender de la experiencia

Los niños naturalmente absorben su entorno. A través de prueba y error, rápidamente aprenden a evitar tocar una estufa caliente y, por extensión, un horno tostador recientemente usado. Doblado Aprendizaje de refuerzo, Este proceso incorpora experiencias, como “yikes, que duelen”, en un modelo de cómo funciona el mundo.

Un modelo psychological hace que sea más fácil imaginar o predecir consecuencias y generalizar experiencias anteriores a otros escenarios. Y cuando las decisiones no funcionan, el cerebro actualiza su modelado de las consecuencias de las acciones: “Dejé caer un galón de leche porque period demasiado pesado para mí”, por lo que los niños finalmente aprenden a no repetir el mismo comportamiento.

Los científicos tienen adoptó los mismos principios Para la IA, esencialmente algoritmos de elevación como los niños. Operai desarrolló algoritmos de aprendizaje de refuerzo previamente que aprendieron a jugar al multijugador de ritmo rápido Dota 2 videojuego con entrenamiento mínimo. Otros algoritmos de este tipo han aprendido a controlar robots capaz de resolver múltiples tareas o vencer el Los juegos de Atari más difíciles.

Aprender de errores y ganar suena fácil. Pero vivimos en un mundo complejo, e incluso tareas simples, como, por ejemplo, hacer un sándwich de mantequilla de maní y gelatina, implican múltiples pasos. Y si el sándwich ultimate se convierte en una abominación sobrecargada y empapada, ¿qué paso salió mal?

Ese es el problema con las recompensas escasas. No recibimos comentarios de inmediato sobre cada paso y acción. El aprendizaje de refuerzo en AI lucha con un problema comparable: ¿cómo pueden los algoritmos descubrir dónde salieron sus decisiones bien o incorrectas?

Mundo de Minecraft

Minecraft es un campo de entrenamiento de IA perfecto.

Los jugadores exploran libremente el vasto terreno del juego (granjas, montañas, pantanos y desiertos) y cosechan materiales especializados a medida que avanzan. En la mayoría de los modos, los jugadores usan estos materiales para construir estructuras intrincadas, desde golpes de pollo hasta la Torre Eiffel, objetos artesanales como espadas y cercas, o comenzar una granja.

El juego también se restablece: cada vez que un jugador se une a un nuevo juego, el mapa mundial es diferente, por lo que recordar una estrategia o lugar anterior para extraer materiales no ayuda. En cambio, el jugador tiene que aprender más en common la física del mundo y cómo lograr los objetivos, cube, minando un diamante.

Estas peculiaridades hacen del juego una prueba especialmente útil para la IA que puede generalizarse, y la comunidad de IA se ha centrado en recolectar diamantes como el desafío ultimate. Esto requiere que los jugadores completen múltiples tareas, desde cortar árboles hasta hacer picos y transportar agua hasta un flujo de lava subterráneo.

Los niños pueden aprender a recolectar diamantes de un video de YouTube de 10 minutos. Pero en una competencia de 2019AI luchó incluso después de hasta cuatro días de entrenamiento en aproximadamente 1,000 horas de metraje del juego humano.

Los algoritmos que imitaban el comportamiento de los jugadores fueron mejores que los que aprendían exclusivamente por el aprendizaje de refuerzo. Uno de los organizadores de la competencia, en ese momentocomentó que este último no tendría una oportunidad en la competencia por su cuenta.

Soñador el explorador

En lugar de confiar en el juego humano, Dreamer exploró el juego por sí mismo, aprendiendo a través de la experimentación para recolectar un diamante desde cero.

La IA está compuesta por tres redes neuronales principales. El primero de estos modelos el Minecraft Mundo, construir una “comprensión” interna de su física y cómo funcionan las acciones. La segunda purple es básicamente un padre que juzga el resultado de las acciones de la IA. ¿Ese fue realmente el movimiento correcto? La última purple luego resolve el mejor paso siguiente para recolectar un diamante.

Los tres componentes fueron entrenados simultáneamente utilizando datos de los intentos anteriores de la IA, un poco como un jugador que juega una y otra vez mientras apuntan a la carrera perfecta.

El modelado mundial es la clave del éxito de Dreamer, Hafner dijo Naturaleza. Este componente imita la forma en que los jugadores humanos ven el juego y le permite a la IA predecir cómo sus acciones podrían cambiar el futuro, y si ese futuro viene con una recompensa.

“El modelo mundial realmente equipa el sistema AI con la capacidad de imaginar el futuro”. dicho Hafner.

Para evaluar Dreamer, el equipo lo desafió con varios algoritmos de uso singulares de última generación en más de 150 tareas. Algunos probaron la capacidad de la IA para mantener decisiones más largas. Otros dieron comentarios constantes o escasos para ver cómo les fue a los programas en mundos 2D y 3D.

“Dreamer coincide o excede los mejores [AI] Expertos “, escribió el equipo.

Luego se convirtieron en una tarea mucho más difícil: recolectar diamantes, lo que requiere una docena de pasos. Intermediate Rewards ayudó a Dreamer a elegir el próximo movimiento con la mayor posibilidad de éxito. Como un desafío adicional, el equipo restablece el juego cada media hora para garantizar que la IA no se formara y recuerde una estrategia específica.

Dreamer recogió un diamante después de aproximadamente nueve días de juego continuo. Eso es mucho más lento que los jugadores humanos expertos, que necesitan solo 20 minutos más o menos. Sin embargo, la IA no fue capacitada específicamente en la tarea. Se enseñó a sí mismo cómo extraer uno de los elementos más codiciados del juego.

La IA “allana el camino para futuras direcciones de investigación, incluida la enseñanza de los agentes del mundo del mundo de los movies de Web y el aprendizaje de un modelo mundial” para que puedan acumular cada vez más una comprensión common de nuestro mundo, escribió el equipo.

“Dreamer marca un paso significativo hacia los sistemas generales de IA”, ” dicho Hafner.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles