33.7 C
Colombia
sábado, julio 5, 2025

Hybrid AI Mannequin Crafts Clean, movies suaves y de alta calidad en segundos | MIT Information


¿Cómo sería una mirada detrás de escena a un video generado por un modelo de inteligencia synthetic? Puede pensar que el proceso es comparable a la animación stop-motion, donde se crean y cosen muchas imágenes, pero ese no es el caso de los “modelos de difusión” como Sora de Openal y VEO 2 de Google.

En lugar de producir un video marco por marco (o “autorregresivo”), estos sistemas procesan toda la secuencia a la vez. El clip resultante a menudo es fotorrealista, pero el proceso es lento y no permite cambios en la marcha.

Los científicos del Laboratorio de Informática e Inteligencia Synthetic del MIT (CSAIL) y Adobe Analysis han desarrollado un enfoque híbrido, llamado “CausVid”, para crear movies en segundos. Al igual que un estudiante de ingenio rápido que aprende de un maestro bien versado, un modelo de difusión de secuencia completa entrena un sistema autorregresivo para predecir rápidamente el siguiente cuadro al tiempo que garantiza una alta calidad y consistencia. El modelo de estudiante de CausVid puede generar clips a partir de un mensaje de texto easy, convirtiendo una foto en una escena móvil, extendiendo un video o alterando sus creaciones con nuevas entradas a mitad de la generación.

Esta herramienta dinámica permite la creación rápida de contenido interactivo, reduciendo un proceso de 50 pasos en solo unas pocas acciones. Puede crear muchas escenas imaginativas y artísticas, como un avión de papel que se transforma en un cisne, mamuts lanudos que se aventuran a través de la nieve o un niño que salta en un charco. Los usuarios también pueden hacer un aviso inicial, como “Generar a un hombre cruzando la calle” y luego hacer entradas de seguimiento para agregar nuevos elementos a la escena, como “escribe en su cuaderno cuando llega a la acera opuesta”.

Breve animación generada por computadora de un personaje en un viejo traje de buceo de aguas profundas caminando sobre una hoja

Un video producido por CausVid ilustra su capacidad para crear contenido suave y de alta calidad.

Animación generada por IA cortesía de los investigadores.

Los investigadores de CSAIL dicen que el modelo podría usarse para diferentes tareas de edición de video, como ayudar a los espectadores a comprender una transmisión en vivo en un lenguaje diferente al generar un video que se sincroniza con una traducción de audio. También podría ayudar a representar contenido nuevo en un videojuego o producir rápidamente simulaciones de entrenamiento para enseñar a los robots nuevas tareas.

Tianwei Yin SM ’25, PhD ’25, un estudiante recientemente graduado en ingeniería eléctrica e informática y afiliado de CSAIL, atribuye la fuerza del modelo a su enfoque mixto.

“CausVid combina un modelo basado en difusión previamente capacitado con una arquitectura autorregresiva que se encuentra típicamente en los modelos de generación de texto”, cube Yin, co-líder de un nuevo papel sobre la herramienta. “Este modelo de maestro impulsado por IA puede imaginar pasos futuros para capacitar a un sistema de cuadro por cuadro para evitar cometer errores de renderizado”.

El co-líder de Yin, Qiang Zhang, es un científico investigador de XAI y un ex investigador visitante de CSAIL. Trabajaron en el proyecto con los científicos de investigación de Adobe Richard Zhang, Eli Shechtman y Xun Huang, y dos investigadores principales de CSAIL: los profesores del MIT Invoice Freeman y Frédo Durand.

Causa (vid) y efecto

Muchos modelos autorregresivos pueden crear un video que inicialmente es suave, pero la calidad tiende a caer más adelante en la secuencia. Un clip de una persona que se ejecuta puede parecer realista al principio, pero sus piernas comienzan a agitarse en direcciones antinaturales, lo que indica inconsistencias de marco a marco (también llamadas “acumulación de errores”).

La generación de video propensa a errores fue común en los enfoques causales anteriores, que aprendieron a predecir los marcos uno por uno por su cuenta. En su lugar, CausVid utiliza un modelo de difusión de alta potencia para enseñar a un sistema más easy su experiencia en video common, lo que le permite crear imágenes suaves, pero mucho más rápido.

Miniatura de video

Reproducir video

CausVid permite una creación de video rápida e interactiva, cortando un proceso de 50 pasos en solo unas pocas acciones.
Video cortesía de los investigadores.

CausVid mostró su aptitud en video cuando los investigadores probaron su capacidad para hacer movies de alta resolución de 10 segundos de largo. Superó a las líneas de base como “Opensora” y “Cine“Trabajando hasta 100 veces más rápido que su competencia mientras producía los clips más estables y de alta calidad.

Luego, Yin y sus colegas probaron la capacidad de CausVid para publicar movies estables de 30 segundos, donde también encabezó modelos comparables en calidad y consistencia. Estos resultados indican que CausVid puede eventualmente producir movies estables, horas, o incluso una duración indefinida.

Un estudio posterior reveló que los usuarios prefirieron los movies generados por el modelo de estudiante de CausVid sobre su maestro basado en la difusión.

“La velocidad del modelo autorregresivo realmente marca la diferencia”, cube Yin. “Sus movies se ven tan bien como los del maestro, pero con menos tiempo para producir, la compensación es que sus imágenes son menos diversas”.

CausVid también se destacó cuando se probó en más de 900 indicaciones utilizando un conjunto de datos de texto a video, recibiendo el puntaje common superior de 84.27. Jactaba las mejores métricas en categorías como la calidad de las imágenes y las acciones humanas realistas, eclipsando modelos de generación de movies de última generación como “Vchitect” y “Gen-3.

Si bien un paso eficiente en la generación de movies de IA, CausVid pronto puede diseñar imágenes incluso más rápido, tal vez al instante, con una arquitectura causal más pequeña. Yin cube que si el modelo está entrenado en conjuntos de datos específicos de dominio, es possible que cree clips de mayor calidad para robótica y juegos.

Los expertos dicen que este sistema híbrido es una actualización prometedora de los modelos de difusión, que actualmente están empantanados por las velocidades de procesamiento. “[Diffusion models] son mucho más lentos que los LLM [large language models] o modelos de imagen generativos “, cube el profesor asistente de la Universidad Carnegie Mellon, Jun-Yan Zhu, quien no participó en el documento.” Este nuevo trabajo cambia eso, lo que hace que la generación de movies sea mucho más eficiente. Eso significa una mejor velocidad de transmisión, aplicaciones más interactivas y huellas de carbono más bajas “.

El trabajo del equipo fue apoyado, en parte, por el Amazon Science Hub, el Instituto de Ciencia y Tecnología Gwangju, Adobe, Google, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU., Y el Acelerador de Inteligencia Synthetic de la Fuerza Aérea de los Estados Unidos. CausVid se presentará en la conferencia sobre visión por computadora y reconocimiento de patrones en junio.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles