En la caricatura clásica “Los Supersónicos”, Rosie, la criada robótica, pasa sin problemas de pasar la aspiradora por la casa, preparar la cena y sacar la basura. Pero en la vida actual, entrenar un robotic de uso normal sigue siendo un gran desafío.
Normalmente, los ingenieros recopilan datos específicos de un determinado robotic y tarea, que utilizan para entrenar al robotic en un entorno controlado. Sin embargo, recopilar estos datos es costoso y requiere mucho tiempo, y es possible que el robotic tenga dificultades para adaptarse a entornos o tareas que no ha visto antes.
Para entrenar mejores robots de uso normal, los investigadores del MIT desarrollaron una técnica versátil que combina una enorme cantidad de datos heterogéneos de muchas fuentes en un sistema que puede enseñar a cualquier robotic una amplia gama de tareas.
Su método implica alinear datos de diversos dominios, como simulaciones y robots reales, y múltiples modalidades, incluidos sensores de visión y codificadores de posición de brazos robóticos, en un “lenguaje” compartido que un modelo generativo de IA puede procesar.
Al combinar una cantidad tan enorme de datos, este enfoque se puede utilizar para entrenar a un robotic para que realice una variedad de tareas sin la necesidad de empezar a entrenarlo desde cero cada vez.
Este método podría ser más rápido y menos costoso que las técnicas tradicionales porque requiere muchos menos datos específicos de la tarea. Además, superó al entrenamiento desde cero en más de un 20 por ciento en simulación y experimentos del mundo actual.
“En robótica, la gente suele afirmar que no tenemos suficientes datos de entrenamiento. Pero en mi opinión, otro gran problema es que los datos provienen de muchos dominios, modalidades y {hardware} de robotic diferentes. Nuestro trabajo muestra cómo sería capaz de entrenar un robotic con todos ellos juntos”, cube Lirui Wang, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y autor principal de un artículo sobre esta técnica.
Los coautores de Wang incluyen a su compañero estudiante graduado de EECS, Jialiang Zhao; Xinlei Chen, científico investigador de Meta; y el autor principal Kaiming He, profesor asociado en EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Synthetic (CSAIL). La investigación se presentará en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Inspirado por los LLM
Una “política” robótica toma observaciones de sensores, como imágenes de cámaras o mediciones propioceptivas que rastrean la velocidad y posicionan un brazo robótico, y luego le dicen al robotic cómo y dónde moverse.
Las políticas generalmente se entrenan mediante el aprendizaje por imitación, lo que significa que un humano demuestra acciones o teleopera un robotic para generar datos, que se introducen en un modelo de inteligencia synthetic que aprende la política. Debido a que este método utiliza una pequeña cantidad de datos específicos de la tarea, los robots a menudo fallan cuando cambia su entorno o tarea.
Para desarrollar un mejor enfoque, Wang y sus colaboradores se inspiraron en grandes modelos de lenguaje como GPT-4.
Estos modelos se entrenan previamente utilizando una enorme cantidad de datos de idiomas diversos y luego se ajustan alimentándolos con una pequeña cantidad de datos específicos de la tarea. El entrenamiento previo con tantos datos ayuda a que los modelos se adapten para desempeñarse bien en una variedad de tareas.
“En el dominio del lenguaje, todos los datos son sólo oraciones. En robótica, dada toda la heterogeneidad de los datos, si queremos realizar un entrenamiento previo de manera comparable, necesitamos una arquitectura diferente”, afirma.
Los datos robóticos adoptan muchas formas, desde imágenes de cámaras hasta instrucciones de lenguaje y mapas de profundidad. Al mismo tiempo, cada robotic es mecánicamente único, con un número y orientación diferente de brazos, pinzas y sensores. Además, los entornos donde se recopilan los datos varían ampliamente.
Los investigadores del MIT desarrollaron una nueva arquitectura llamada Transformadores heterogéneos preentrenados (HPT) que unifica datos de estas variadas modalidades y dominios.
Colocaron un modelo de aprendizaje automático conocido como transformador en el medio de su arquitectura, que procesa entradas de visión y propiocepción. Un transformador es el mismo tipo de modelo que forma la columna vertebral de los grandes modelos lingüísticos.
Los investigadores alinean los datos de la visión y la propiocepción en el mismo tipo de entrada, llamado token, que el transformador puede procesar. Cada entrada se representa con el mismo número fijo de tokens.
Luego, el transformador asigna todas las entradas a un espacio compartido y crece hasta convertirse en un enorme modelo previamente entrenado a medida que procesa y aprende de más datos. Cuanto más grande sea el transformador, mejor funcionará.
Un usuario solo necesita proporcionar a HPT una pequeña cantidad de datos sobre el diseño, la configuración y la tarea de su robotic y la tarea que desea que realice. Luego, HPT transfiere el conocimiento que el transformador adquirió durante el entrenamiento previo para aprender la nueva tarea.
Permitir movimientos diestros
Uno de los mayores desafíos del desarrollo de HPT fue construir un conjunto de datos masivo para preparar previamente el transformador, que incluía 52 conjuntos de datos con más de 200.000 trayectorias de robots en cuatro categorías, incluidos movies de demostración humanos y simulación.
Los investigadores también necesitaban desarrollar una forma eficiente de convertir señales de propiocepción sin procesar procedentes de una serie de sensores en datos que el transformador pudiera manejar.
“La propiocepción es clave para permitir muchos movimientos diestros. Debido a que el número de fichas en nuestra arquitectura es siempre el mismo, le damos la misma importancia a la propiocepción y la visión”, explica Wang.
Cuando probaron HPT, mejoró el rendimiento del robotic en más de un 20 por ciento en tareas de simulación y del mundo actual, en comparación con el entrenamiento desde cero cada vez. Incluso cuando la tarea period muy diferente de los datos previos al entrenamiento, HPT aún mejoró el rendimiento.
En el futuro, los investigadores quieren estudiar cómo la diversidad de datos podría mejorar el rendimiento de HPT. También quieren mejorar HPT para que pueda procesar datos sin etiquetar como GPT-4 y otros modelos de lenguaje de gran tamaño.
“Nuestro sueño es tener un cerebro de robotic common que puedas descargar y usar para tu robotic sin ningún tipo de entrenamiento. Si bien estamos en las primeras etapas, vamos a seguir esforzándonos y esperamos que la ampliación conduzca a un gran avance en la robótica. políticas, como ocurrió con los grandes modelos lingüísticos”, afirma.