23.2 C
Colombia
domingo, julio 6, 2025

Este descubrimiento cerebral podría desbloquear la capacidad de la IA para ver el futuro


Constantemente tomamos decisiones. Algunos parecen simples: reservé la cena en un nuevo restaurante, pero ahora tengo hambre. ¿Debo tomar un refrigerio y arriesgarme a perder el apetito o esperar hasta más tarde para una comida satisfactoria? En otras palabras, ¿qué opción probablemente sea más gratificante?

Las neuronas de dopamina dentro del cerebro rastrean estas decisiones y sus resultados. Si te arrepientes de una opción, es possible que hagas uno diferente la próxima vez. Esto se llama aprendizaje de refuerzo, y ayuda al cerebro a ajustarse continuamente al cambio. También impulsa una familia de Algoritmos de IA que aprenden de éxitos y errores como lo hacen los humanos.

Pero la recompensa no es todo o nada. ¿Mi elección me hizo extasiado, o simplemente un poco más feliz? ¿Valió la pena la espera?

Esta semana, investigadores de la Fundación Champalimaud, la Universidad de Harvard y otras instituciones dijeron que han descubierto A anteriormente universo oculto de señalización de dopamina en el cerebro. Después de registrar la actividad de las neuronas de dopamina individuales a medida que los ratones aprendieron una nueva tarea, los equipos descubrieron que las células no rastrean simplemente las recompensas. También vigilan cuándo llegó una recompensa y lo grande que period, construyendo un mapa psychological de posibilidades de recompensa a corto plazo y futuros lejanos.

“Estudios previos generalmente solo promediaron la actividad en todas las neuronas y observaron ese promedio”, dijo la autora de estudio Margarida Sousa en un comunicado de prensa. “Pero queríamos capturar la plena diversidad en la población, para ver cómo las neuronas individuales podrían especializarse y contribuir a una representación colectiva más amplia”.

Algunas neuronas de dopamina prefirieron recompensas inmediatas; Otros lentamente aumentaron la actividad en la expectativa de una satisfacción tardía. Cada celda también tenía preferencia por el tamaño de una recompensa y escuchaba las señales internas, por ejemplo, si un mouse period sediento, hambriento y su nivel de motivación.

Sorprendentemente, este mapa multidimensional imita de cerca algunos sistemas de IA emergentes que dependen del aprendizaje de refuerzo. En lugar de promediar diferentes opiniones en una sola decisión, algunos sistemas de IA utilizan un grupo de algoritmos que codifica una amplia gama de posibilidades de recompensas y luego vota en una decisión last.

En varias simulaciones, la IA equipada con un mapa multidimensional manejó mejor la incertidumbre y el riesgo en una tarea de alimentación.

Los resultados “abren nuevas vías” para diseñar una IA de aprendizaje de refuerzo más eficiente que predice y se adapte mejor a las incertidumbres, escribió un equipo. También proporcionan una nueva forma de comprender cómo nuestros cerebros toman decisiones cotidianas y pueden ofrecer información sobre cómo tratar impulsividad en trastornos neurológicos como la enfermedad de Parkinson.

Chispa de dopamina

Durante décadas, los neurocientíficos han sabido que las neuronas de dopamina sustentan el aprendizaje de refuerzo. Estas neuronas hinchan una pequeña cantidad de dopamina, a menudo denominada química de placer, para indicar una recompensa inesperada. A través de prueba y error, estas señales podrían eventualmente dirigir un ratón sediento a través de un laberinto para encontrar el agua escondida al last. Los científicos han desarrollado un marco para el aprendizaje de refuerzo al registrar la actividad eléctrica de las neuronas de dopamina como aprendieron estas criaturas. Las neuronas de la dopamina chancan con actividad en respuesta a las recompensas cercanas, luego esta actividad se desvanece lentamente a medida que pasa el tiempo: un proceso que los investigadores llaman “descuento”.

Pero estos analizan la actividad promedio en una sola recompensa esperada, en lugar de capturar el rango completo de resultados posibles con el tiempo, como recompensas más grandes después de retrasos más largos. Aunque los modelos pueden decirle si ha recibido una recompensa, se pierden matices, como cuándo y cuánto. Después de luchar contra el hambre, ¿fue la espera de que valga la pena el restaurante?

Una pista inesperada

Sousa y sus colegas se preguntaron si la señalización de la dopamina es más compleja de lo que se pensaba anteriormente. Su nuevo estudio se inspiró en AI. Un enfoque llamado aprendizaje de refuerzo de distribución Estima una variedad de posibilidades y aprende de prueba y error en lugar de una sola recompensa.

“¿Qué pasaría si diferentes neuronas de dopamina fueran sensibles a distintas combinaciones de posibles características de recompensa futura, por ejemplo, no solo su magnitud, sino también su tiempo?” dijo Sousa.

Neurocientíficos de Harvard dirigidos por Naoshige Uchida Tenía una respuesta. Registraron la actividad eléctrica de las neuronas de dopamina individuales en ratones a medida que los animales aprendieron a lamer una recompensa de agua. Al comienzo de cada ensayo, los ratones olfatearon un aroma diferente que predijo tanto la cantidad de agua que podrían encontrar, es decir, el tamaño de la recompensa, y cuánto tiempo hasta que puedan obtenerlo.

Cada neurona de dopamina tenía su propia preferencia. Algunos fueron más impulsivas y preferidas recompensas inmediatas, independientemente del tamaño. Otros eran más cautelosos, aumentando lentamente la actividad que rastreaba la recompensa con el tiempo. Es un poco como ser extremadamente sediento en una caminata en el desierto con agua limitada: ¿lo sacas todo ahora o lo raciones y te das una pista más larga?

Las neuronas también tenían diferentes personalidades. Los optimistas eran especialmente sensibles a las recompensas inesperadamente grandes, activando con una explosión, mientras que las pesimistas permanecieron en silencio. La combinación de la actividad de estos votantes neuronales, cada uno con su propio punto de vista, resultó en un código de población que finalmente decidió el comportamiento de los ratones.

“Es como tener un equipo de asesores con diferentes perfiles de riesgo”, dijo el autor del estudio Daniel McNamee en el comunicado de prensa“Alguna acción de urgencia, la recompensa ahora, podría no durar, mientras que otros aconsejan la paciencia,” pasean, algo mejor podría venir “.

La postura de cada neurona period versatile. Cuando la recompensa se retrasó constantemente, se cambiaron colectivamente para favorecer las recompensas a largo plazo, mostrando cómo el cerebro se ajusta rápidamente al cambio.

“Cuando miramos el [dopamine neuron] Población en basic, quedó claro que estas neuronas estaban codificando un mapa probabilístico “, dicho El autor del estudio Joe Paton. “No solo si una recompensa period possible, sino un sistema de coordenadas de cuándo podría llegar y cuán grande podría ser”.

Cerebro a la IA

Las grabaciones cerebrales fueron como el conjunto de IA, donde cada modelo tiene su propio punto de vista, pero el grupo colabora para manejar las incertidumbres.

El equipo también desarrolló un algoritmo, llamado aprendizaje de refuerzo de magnitud de tiempo, o TMRL, que podría planificar las opciones futuras. Los modelos clásicos de aprendizaje de refuerzo solo dan recompensas al last. Esto requiere muchos ciclos de aprendizaje antes de que un algoritmo estuviera en la mejor decisión. Pero TMRL asigna rápidamente una serie de opciones, lo que permite a los humanos y a la IA elegir los mejores con menos ciclos. El nuevo modelo también incluye estados internos, como los niveles de hambre, para ajustar las decisiones finas.

En una prueba, los algoritmos de equipamiento con un “mapa multidimensional” related a la dopamina aumentó su rendimiento En una tarea de alimentación simulada en comparación con los modelos de aprendizaje de refuerzo estándar.

“Saber de antemano, al comienzo de un episodio, el rango y la probabilidad de recompensas disponibles y cuando es possible que ocurran, podría ser muy útil para la planificación y el comportamiento versatile”, especialmente en un entorno complejo y con diferentes estados internos, escribió Sousa y equipo.

Los estudios duales son los últimos en mostrar el poder de AI y neurociencia colaboración. Los modelos del funcionamiento interno del cerebro pueden inspirar más IA humana. Mientras tanto, la IA está brillando con luz en nuestra propia maquinaria neural, lo que potencialmente conduce a concepts sobre los trastornos neurológicos.

La inspiración del cerebro “podría ser clave para desarrollar máquinas que razonen más como los humanos”, dijo Paton.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles