34.7 C
Colombia
domingo, julio 6, 2025

AI aprende cómo la visión y el sonido están conectados, sin intervención humana | MIT Information



Los humanos naturalmente aprenden haciendo conexiones entre la vista y el sonido. Por ejemplo, podemos ver a alguien tocar el violonchelo y reconocer que los movimientos del violonchelista están generando la música que escuchamos.

Un nuevo enfoque desarrollado por investigadores del MIT y en otros lugares mejora la capacidad de un modelo de IA de aprender de esta misma manera. Esto podría ser útil en aplicaciones como el periodismo y la producción de películas, donde el modelo podría ayudar a curar el contenido multimodal a través de movies automáticos y recuperación de audio.

A largo plazo, este trabajo podría usarse para mejorar la capacidad de un robotic para comprender los entornos del mundo actual, donde la información auditiva y visible a menudo está estrechamente conectada.

Mejorando el trabajo previo de su grupo, los investigadores crearon un método que ayuda a los modelos de aprendizaje automático a alinear los datos de audio y visuales correspondientes de los videoclips sin la necesidad de etiquetas humanas.

Ajustaron cómo se capacita su modelo unique, por lo que aprende una correspondencia de grano más fino entre un marco de video en explicit y el audio que ocurre en ese momento. Los investigadores también hicieron algunos ajustes arquitectónicos que ayudan al sistema a equilibrar dos objetivos de aprendizaje distintos, lo que mejora el rendimiento.

Tomados en conjunto, estas mejoras relativamente simples aumentan la precisión de su enfoque en las tareas de recuperación de movies y en la clasificación de la acción en escenas audiovisuales. Por ejemplo, el nuevo método podría coincidir de forma automática y precisa el sonido de una puerta golpeando con la visible de que se cierre en un videoclip.

“We’re constructing AI methods that may course of the world like people do, when it comes to having each audio and visible info coming in without delay and with the ability to seamlessly course of each modalities. Wanting ahead, if we will combine this audio-visual expertise into among the instruments we use each day, like massive language fashions, it might open up quite a lot of new purposes,” says Andrew Rouditchenko, an MIT graduate pupil and co-author of a Documento sobre esta investigación.

Se le une al periódico el autor principal Edson Aroujo, un estudiante graduado en la Universidad de Goethe en Alemania; Yuan Gong, un ex postdoc de MIT; Saurabhchand Bhati, un MIT postdoc precise; Samuel Thomas, Brian Kingsbury y Leonid Karlinsky de IBM Analysis; Rogerio Feris, científico principal y gerente del laboratorio MIT-IBM Watson AI; James Glass, científico de investigación senior y jefe del Grupo de Sistemas de Lenguas Hablados en el Laboratorio de Informática e Inteligencia Synthetic del MIT (CSAIL); y la autora senior Hilde Kuehne, profesora de ciencias de la computación en la Universidad de Goethe y profesora afiliada en el MIT-IBM Watson AI Lab. El trabajo se presentará en la conferencia sobre visión por computadora y reconocimiento de patrones.

Sincronizando

Este trabajo se basa en un método de aprendizaje automático Los investigadores desarrollaron Hace unos años, que proporcionó una forma eficiente de entrenar un modelo multimodal para procesar simultáneamente los datos de audio y visible sin la necesidad de etiquetas humanas.

Los investigadores alimentan este modelo, llamado cav-mae, videoclips sin etiquetar y codifica los datos visuales y de audio por separado en representaciones llamadas tokens. Usando el audio pure de la grabación, el modelo aprende automáticamente a mapear los pares de audio y tokens visuales correspondientes que se cierran juntos dentro de su espacio de representación interna.

Descubrieron que el uso de dos objetivos de aprendizaje equilibra el proceso de aprendizaje del modelo, lo que permite a Cav-mae comprender los datos de audio y visuales correspondientes al tiempo que mejora su capacidad para recuperar videoclips que coinciden con las consultas de los usuarios.

Pero Cav-mae trata las muestras de audio y visible como una unidad, por lo que un video clip de 10 segundos y el sonido de un golpe de puerta se asignan juntos, incluso si ese evento de audio ocurre en solo un segundo del video.

En su modelo mejorado, llamado Cav-Mae Sync, los investigadores dividen el audio en ventanas más pequeñas antes de que el modelo calcule sus representaciones de los datos, por lo que genera representaciones separadas que corresponden a cada ventana de audio más pequeña.

Durante la capacitación, el modelo aprende a asociar un marco de video con el audio que ocurre solo durante ese cuadro.

“Al hacer eso, el modelo aprende una correspondencia de grano más fino, que ayuda con el rendimiento más adelante cuando agregamos esta información”, cube Araujo.

También incorporaron mejoras arquitectónicas que ayudan al modelo a equilibrar sus dos objetivos de aprendizaje.

Agregar “margen de maniobra”

El modelo incorpora un objetivo contrastante, donde aprende a asociar datos de audio y visuales similares, y un objetivo de reconstrucción que tiene como objetivo recuperar datos de audio y visuales específicos basados ​​en consultas de usuarios.

En Cav-Mae Sync, los investigadores introdujeron dos nuevos tipos de representaciones de datos, o tokens, para mejorar la capacidad de aprendizaje del modelo.

Incluyen “tokens globales” dedicados que ayudan con el objetivo de aprendizaje contrastante y los “tokens de registro” dedicados que ayudan al modelo a centrarse en detalles importantes para el objetivo de reconstrucción.

“Esencialmente, agregamos un poco más de margen de maniobra al modelo para que pueda realizar cada una de estas dos tareas, contrastantes y reconstructivas, un poco más independientes. Eso benefició al rendimiento normal”, agrega Araujo.

Si bien los investigadores tuvieron cierta intuición, estas mejoras mejorarían el rendimiento de la sincronización Cav-mae, se requirió una cuidadosa combinación de estrategias para cambiar el modelo en la dirección que querían que fuera.

“Debido a que tenemos múltiples modalidades, necesitamos un buen modelo para ambas modalidades por sí mismos, pero también necesitamos que se fusionen y colaboren”, cube Rouditchenko.

Al closing, sus mejoras mejoraron la capacidad del modelo para recuperar movies basados ​​en una consulta de audio y predecir la clase de una escena de audio visible, como un perro que ladra o un instrumento.

Sus resultados fueron más precisos que su trabajo anterior, y también funcionó mejor que los métodos más complejos y de última generación que requieren mayores cantidades de datos de capacitación.

“A veces, las concepts muy simples o los pequeños patrones que ve en los datos tienen un gran valor cuando se aplica sobre un modelo en el que está trabajando”, cube Araujo.

En el futuro, los investigadores quieren incorporar nuevos modelos que generen mejores representaciones de datos en la sincronización Cav-Mae, lo que podría mejorar el rendimiento. También quieren permitir que su sistema maneje los datos de texto, lo que sería un paso importante para generar un modelo de lenguaje grande audiovisual.

Este trabajo es financiado, en parte, por el Ministerio Federal de Educación e Investigación alemán y el Laboratorio MIT-IBM Watson AI.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles