32.3 C
Colombia
lunes, julio 7, 2025

NVIDIA anuncia la period de la ‘IA física’ con el lanzamiento de la plataforma Cosmos


Durante demasiado tiempo, la IA ha estado atrapada en Flatland, el mundo bidimensional imaginado por un maestro de escuela inglés. Edwin Abbott. Si bien los chatbots, los generadores de imágenes y las herramientas de vídeo basadas en inteligencia synthetic nos han deslumbrado, siguen confinados a las superficies planas de nuestras pantallas.

Ahora, NVIDIA está derribando los muros de Llanuramarcando el comienzo de la period de la “IA física”, un mundo en el que inteligencia synthetic Podemos percibir, comprender e interactuar con el mundo tridimensional que nos rodea.

“La próxima frontera de la IA es la IA física. Think about un modelo de lenguaje grande, pero en lugar de procesar texto, procesa su entorno”, dijo Jensen Huang, director ejecutivo de Nvidia. “En lugar de tomar una pregunta como una indicación, se necesita una solicitud. En lugar de producir texto, produce tokens de acción.

¿En qué se diferencia esto de la robótica tradicional? Los robots tradicionales suelen estar preprogramados para realizar tareas específicas y repetitivas en entornos controlados. Se destacan en la automatización, pero carecen de la adaptabilidad y la comprensión para manejar situaciones inesperadas o navegar en entornos complejos y dinámicos.

Kimberly Powell, vicepresidenta de atención médica de NVIDIA, habló del potencial en cuidado de la salud ambientes durante su anuncio en la Conferencia de Atención Médica de JP Morgan:

“Cada sensor, cada habitación de paciente, cada hospital integrará IA física”, dijo. “Es un concepto nuevo, pero la forma más sencilla de pensar en la IA física es que comprende el mundo físico”.

La comprensión es el quid de la cuestión. Si bien la IA tradicional y los sistemas autónomos podrían operar en un espacio físico, históricamente han carecido de un sentido holístico del mundo más allá de lo que necesitan para realizar tareas rutinarias.

Los sistemas avanzados de IA están obteniendo avances constantes a medida que se acelera el rendimiento de las GPU. En un episodio del “Podcast sin antecedentes En noviembre, Huang reveló que NVIDIA había mejorado el rendimiento de su arquitectura Hopper en un issue de cinco en 12 meses, manteniendo al mismo tiempo la compatibilidad de la interfaz de programación de aplicaciones (API) en capas superiores de software program. Su última arquitectura es Blackwell.

“Una mejora de cinco factores en un año es imposible utilizando enfoques informáticos tradicionales”, señaló Huang. Explicó que la computación acelerada combinada con metodologías de codiseño de {hardware} y software program permitió a NVIDIA “inventar todo tipo de cosas nuevas”.

Hacia la ‘inteligencia robótica synthetic’

Huang también discutió su perspectiva sobre la inteligencia synthetic basic (AGI), sugiriendo que no solo la AGI está a nuestro alcance, sino que la robótica synthetic basic también se está acercando a la viabilidad tecnológica.

Powell se hizo eco de un sentimiento related en su charla en JP Morgan. La revolución de la IA no sólo está aquí, sino que se está acelerando enormemente”, afirmó.

Powell señaló que los esfuerzos de NVIDIA ahora abarcan todo, desde robótica avanzada en fabricación y atención sanitaria a simulación herramientas como Omniverso que generan entornos fotorrealistas para entrenamiento y pruebas.

En un desarrollo paralelo, NVIDIA ha lanzado nuevos marcos computacionales para el desarrollo de sistemas autónomos. La plataforma Cosmos World Basis Fashions (WFM) admite el procesamiento de datos visuales y físicos a escala, con marcos diseñados para aplicaciones de robótica y vehículos autónomos.

La imagen presenta los cuatro componentes arquitectónicos clave de NVIDIA Cosmos: un modelo autorregresivo para la predicción de cuadros secuenciales, un modelo de difusión para la generación iterativa de video, un tokenizador de video para una compresión eficiente y un canal de procesamiento de video para la curación de datos. Estos componentes, unificados por el diseño central de NVIDIA, forman una plataforma integrada para el modelado mundial y la generación de videos teniendo en cuenta la física.

NVIDIA Cosmos tiene cuatro componentes arquitectónicos clave: un modelo autorregresivo para la predicción de cuadros secuenciales, un modelo de difusión para la generación iterativa de video, un tokenizador de video para una compresión eficiente y un canal de procesamiento de video para la curación de datos. Estos componentes forman una plataforma integrada para el modelado mundial y la generación de movies teniendo en cuenta la física. | Fuente: NVIDIA

Tokenizar la realidad

En CES 2025 la semana pasada, Huang subrayado cuán diferente será la “IA física” en comparación con los modelos de lenguaje grande (LLM) centrados en texto: “¿Qué pasa si, en lugar de que el mensaje sea una pregunta, sea una solicitud? Vaya allí, recoja esa casilla y tráigala de vuelta. ¿Y en lugar de producir texto, produce tokens de acción? Esto es algo muy sensato para el futuro de la robótica y la tecnología está a la vuelta de la esquina”.

en el mismo Podcast sin antecedentesHuang señaló que la fuerte demanda de LLM multimodales podría impulsar avances en robótica. “Si puedes generar un video de mí tomando una taza de café, ¿por qué no puedes pedirle a un robotic que haga lo mismo?” preguntó.

Huang también destacó las oportunidades “brownfield” en robótica, donde no se requiere nueva infraestructura, y citó como principales ejemplos los vehículos autónomos y los robots con forma humana. “Construimos nuestro mundo para los automóviles y para los humanos. Esas son las formas más naturales de IA física”.

Los fundamentos estructurales del Cosmos

Una imagen promocional de Cosmos que muestra un robot generado sosteniendo un volante.

Una imagen promocional de Cosmos. | Fuente: NVIDIA

La plataforma Cosmos de NVIDIA enfatiza el modelado de video y el procesamiento de datos de sensores teniendo en cuenta la física. También introduce un marco para entrenar e implementar WFM, con tamaños de parámetros que van de cuatro a 14 mil millones, diseñado para procesar entradas multimodales que incluyen video, texto y datos de sensores.

La arquitectura del sistema incorpora modelos de vídeo con conciencia física entrenados en aproximadamente 9.000 billones de tokens, extraídos de 20 millones de horas de robótica y datos de conducción. La infraestructura de procesamiento de datos de la plataforma aprovecha el canal NeMo Curator, que permite el procesamiento de vídeo de alto rendimiento en clústeres informáticos distribuidos.

Esta arquitectura admite modelos autorregresivos y de difusión para generar simulaciones basadas en la física, con puntos de referencia que muestran una mejora de hasta 14 veces en la precisión de la estimación de pose en comparación con los modelos de síntesis de video de referencia. El tokenizador del sistema implementa una relación de compresión de 8x para datos visuales mientras mantiene la coherencia temporal, esencial para aplicaciones de robótica en tiempo actual.

La visión de la IA física

El desarrollo de modelos de fundación mundial (WFM) representa un cambio en la forma en que los sistemas de IA interactúan con el mundo físico. La complejidad del modelado físico presenta desafíos únicos que distinguen a los WFM de los modelos de lenguaje convencionales.

“[The world model] Tiene que entender la dinámica física, cosas como la gravedad, la fricción y la inercia. Tiene que comprender las relaciones geométricas y espaciales”, explicó Huang. Esta comprensión integral de los principios de la física impulsa la arquitectura de sistemas como Cosmos, que implementa redes neuronales especializadas para modelar interacciones físicas.

La metodología de desarrollo de sistemas físicos de IA es paralela a la de los LLM, pero con requisitos operativos distintos. Huang estableció esta conexión explícitamente: “Imagínese, mientras que su modelo de lenguaje grande, le da su contexto, su mensaje a la izquierda, y genera tokens”.

Los amplios requisitos de capacitación de la plataforma se alinean con la observación de Huang de que “la ley de escala cube que cuantos más datos tenga, más datos de capacitación tenga, más grande sea el modelo y más cálculo le aplique, por lo tanto, más efectivo será el modelo”. , o más capaz será tu modelo”.

Este principio se ejemplifica en el conjunto de datos de entrenamiento de Cosmos de 9.000 billones de tokens, lo que demuestra la escala computacional necesaria para sistemas físicos de IA eficaces.

La imagen ilustra la tecnología Isaac GR00T de NVIDIA y muestra a un operador humano usando un visor de realidad virtual para demostrar movimientos que son reflejados por un robot humanoide en un entorno simulado. La demostración destaca la generación de movimiento sintético basada en teleoperadores para entrenar sistemas robóticos de próxima generación.

La imagen ilustra la tecnología Isaac GR00T de NVIDIA y muestra a un operador humano usando un visor de realidad digital para demostrar movimientos que son reflejados por un robotic humanoide en un entorno simulado. La demostración destaca la generación de movimiento sintético basada en teleoperadores para entrenar sistemas robóticos de próxima generación. | Fuente: NVIDIA

Implicaciones futuras

La IA física tiene el potencial de transformar más que los usuarios tradicionales de robótica. Paralelamente a los avances en la IA física, los agentes de IA también están ampliando rápidamente sus habilidades. Huang describió a esos agentes como “la nueva fuerza laboral digital que trabaja para y con nosotros”.

Ya sea en manufactura, atención médica, logísticao tecnología de consumo cotidiana, estos agentes inteligentes pueden aliviar a los humanos de tareas repetitivas, operar continuamente y adaptarse a condiciones que cambian rápidamente. En sus palabras: “Está muy, muy claro que los agentes de IA probablemente sean la próxima industria de la robótica y probablemente representen una oportunidad multimillonaria”.

Como dijo Huang, nos acercamos a un momento en el que la IA “estará con ustedes” integrada de manera constante y perfecta en nuestras vidas. Señaló las gafas inteligentes de Meta como un ejemplo temprano, imaginando un futuro en el que podemos simplemente hacer gestos o usar nuestra voz para interactuar con nuestros compañeros de inteligencia synthetic y acceder a información sobre el mundo que nos rodea.

Según Huang, este cambio hacia asistentes de IA intuitivos y siempre activos tiene profundas implicaciones en la forma en que aprendemos, trabajamos y navegamos en nuestro entorno.

“La inteligencia, por supuesto, es el activo más valioso que tenemos y puede aplicarse para resolver muchos problemas muy difíciles”, afirmó.

Mientras miramos hacia un futuro lleno de agentes de IA continuos, realidad aumentada inmersiva y oportunidades de billones de dólares en robótica, la period de la “IA de Flattland” está a punto de llegar a su fin, y el mundo actual se convertirá en el mayor lienzo de la IA. .

Nota del editor: Este artículo fue distribuido por El informe del robotic sitio hermano Mundo I+D.


ANUNCIO DEL SITIO para la inscripción a la Cumbre de Robótica 2025.
¡Regístrese hoy para ahorrar un 40 % en pases para la conferencia!


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles