La generación de imágenes AI, que se basa en redes neuronales para crear nuevas imágenes a partir de una variedad de entradas, incluidas las indicaciones de texto, se convierte en una industria de mil millones de dólares a fines de esta década. Incluso con la tecnología precise, si quisieras hacer una imagen fantasiosa de, por ejemplo, un amigo que plantea una bandera en Marte o volando sin atención en un agujero negro, podría tomar menos de un segundo. Sin embargo, antes de que puedan realizar tareas como esa, los generadores de imágenes se entrenan comúnmente en conjuntos de datos masivos que contienen millones de imágenes que a menudo se combinan con texto asociado. La capacitación de estos modelos generativos puede ser una tarea ardua que lleva semanas o meses, consumiendo grandes recursos computacionales en el proceso.
Pero, ¿qué pasaría si fuera posible generar imágenes a través de métodos de IA sin usar un generador? Esa posibilidad actual, junto con otras concepts intrigantes, se describió en un trabajo de investigación Presentado en la Conferencia Internacional sobre Aprendizaje Autor (ICML 2025), que se celebró en Vancouver, Columbia Británica, a principios de este verano. El documento, que describe técnicas novedosas para manipular y generar imágenes, fue escrito por Lukas Lao Beyer, un investigador de estudiantes graduados en el Laboratorio del MIT para Sistemas de Información y Decisión (Lids); Tianhong Li, Postdoc en el Laboratorio de Informática e Inteligencia Synthetic del MIT (CSAIL); Xinlei Chen de Fb AI Analysis; Sertac Karaman, profesor del MIT de aeronáutica y astronautia y director de tapa; y Kaiming He, profesor asociado de Ingeniería Eléctrica e Informática del MIT.
Este esfuerzo grupal tuvo su origen en un proyecto de clase para un seminario de posgrado sobre modelos generativos profundos que Lao Beyer tomó el otoño pasado. En las conversaciones durante el semestre, se hizo evidente tanto para Lao Beyer como para él, quien enseñó el seminario, que esta investigación tenía un potencial actual, que fue mucho más allá de los límites de una tarea típica. Otros colaboradores pronto fueron llevados al esfuerzo.
El punto de partida para la investigación de Lao Beyer fue un artículo de junio de 2024, escrito por investigadores de la Universidad Técnica de Munich y la compañía china Bytedance, que introdujo una nueva forma de representar información visible llamada tokenizador unidimensional. Con este dispositivo, que también es una especie de purple neuronal, una imagen de 256×256 píxeles se puede traducir en una secuencia de solo 32 números, llamadas tokens. “Quería entender cómo se podría lograr un nivel tan alto de compresión y qué representaban realmente los tokens en realidad”, cube Lao Beyer.
La generación anterior de tokenizers generalmente dividiría la misma imagen en una matriz de tokens 16×16, con cada información de encapsulación de token, en forma altamente condensada, que corresponde a una porción específica de la imagen authentic. Los nuevos tokenizadores 1D pueden codificar una imagen de manera más eficiente, utilizando muchos menos tokens en normal, y estos tokens pueden capturar información sobre toda la imagen, no solo un solo cuadrante. Cada uno de estos tokens, además, es un número de 12 dígitos que consta de 1s y 0s, lo que permite 212 (o alrededor de 4,000) posibilidades por completo. “Es como un vocabulario de 4.000 palabras que constituye un lenguaje abstracto y oculto hablado por la computadora”, explica. “No es como un lenguaje humano, pero aún podemos tratar de averiguar qué significa”.
Eso es exactamente lo que Lao Beyer inicialmente se propuso explorar: trabajo que proporcionó la semilla para el artículo ICML 2025. El enfoque que tomó fue bastante sencillo. Si desea averiguar qué hace un token en specific, Lao Beyer cube: “Puede sacarlo, intercambiar un valor aleatorio y ver si hay un cambio reconocible en la salida”. Encontró que reemplazar una token cambia la calidad de la imagen, convirtiendo una imagen de baja resolución en una imagen de alta resolución o viceversa. Otra ficha afectó la desenfoque en el fondo, mientras que otra aún influyó en el brillo. También encontró una ficha relacionada con la “pose”, lo que significa que, a la imagen de un robin, por ejemplo, la cabeza del pájaro podría cambiar de derecha a izquierda.
“Este fue un resultado nunca antes visto, ya que nadie había observado cambios visualmente identificables de manipular tokens”, cube Lao Beyer. El hallazgo planteó la posibilidad de un nuevo enfoque para editar imágenes. Y el grupo MIT ha demostrado, de hecho, cómo este proceso puede simplificarse y automatizarse, para que los tokens no tengan que modificarse a mano, uno a la vez.
Él y sus colegas lograron un resultado aún más consecuente que involucra la generación de imágenes. Un sistema capaz de generar imágenes normalmente requiere un tokenizer, que comprime y codifica datos visuales, junto con un generador que puede combinar y organizar estas representaciones compactas para crear imágenes novedosas. Los investigadores del MIT encontraron una manera de crear imágenes sin usar un generador. Su nuevo enfoque utiliza un tokenizador 1D y un llamado Delokenizer (también conocido como decodificador), que puede reconstruir una imagen de una cadena de tokens. Sin embargo, con la orientación proporcionada por una purple neuronal estándar llamada Clip, que no puede generar imágenes por sí sola, pero puede medir qué tan bien una imagen determinada coincide con un determinado de texto, el equipo pudo convertir una imagen de un panda rojo, por ejemplo, en un tigre. Además, podrían crear imágenes de un tigre, o cualquier otra forma deseada, comenzando completamente desde cero, desde una situación en la que a todos los tokens se les asignan inicialmente valores aleatorios (y luego se ajustan iterativamente para que la imagen reconstruida coincida cada vez más con la solicitud de texto deseada).
El grupo demostró que con esta misma configuración, dependiendo de un tokenizer y rectokenizer, pero sin generador, también podrían hacer “ingenio”, lo que significa llenar partes de imágenes que de alguna manera se habían borrado. Evitar el uso de un generador para ciertas tareas podría conducir a una reducción significativa en los costos computacionales porque los generadores, como se mencionó, normalmente requieren una amplia capacitación.
Lo que podría parecer extraño sobre las contribuciones de este equipo, explica, “es que no inventamos nada nuevo. No inventamos un tokenizador 1D, y tampoco inventamos el modelo de clip. Pero descubrimos que las nuevas capacidades pueden surgir cuando juntas todas estas piezas”.
“Este trabajo redefine el papel de los tokenizadores”, comenta Saining Xie, un científico informático de la Universidad de Nueva York. “Muestra que los tokenizadores de imágenes, las herramientas generalmente utilizadas solo para comprimir imágenes, en realidad pueden hacer mucho más. El hecho de que un tokenizador 1D easy (pero altamente comprimido) puede manejar tareas como la entrada o la edición guiada por texto, sin necesidad de entrenar un modelo generativo completo, es bastante sorprendente”.
Zhuang Liu de la Universidad de Princeton está de acuerdo, diciendo que el trabajo del grupo MIT “muestra que podemos generar y manipular las imágenes de una manera mucho más fácil de lo que pensamos anteriormente. Básicamente, demuestra que la generación de imágenes puede ser un subproducto de un compresor de imagen muy efectivo, reduciendo potencialmente el costo de generar imágenes varias veces”.
Podría haber muchas aplicaciones fuera del campo de la visión por computadora, sugiere Karaman. “Por ejemplo, podríamos considerar la tokenización de las acciones de los robots o los autos autónomos de la misma manera, lo que puede ampliar rápidamente el impacto de este trabajo”.
Lao Beyer está pensando en líneas similares, señalando que la cantidad extrema de compresión que ofrece 1D Tokenizers le permite hacer “algunas cosas increíbles”, lo que podría aplicarse a otros campos. Por ejemplo, en el área de autos autónomos, que es uno de sus intereses de investigación, los tokens podrían representar, en lugar de imágenes, las diferentes rutas que un vehículo podría tomar.
Xie también está intrigado por las aplicaciones que pueden provenir de estas concepts innovadoras. “Hay algunos casos de uso realmente geniales que esto podría desbloquear”, cube.