La startup emergente Bodily Intelligence no tiene ningún interés en construir robots. En cambio, el equipo tiene algo mejor en mente: alimentar el {hardware} con los “cerebros” generalistas de aprendizaje continuo del software program de inteligencia synthetic, para que las máquinas existentes puedan realizar de forma autónoma una cantidad cada vez mayor de tareas que requieren movimientos precisos y destreza, incluidas las tareas domésticas.
Durante el año pasado hemos visto perros robotic bailandoincluso algunos equipado para disparar llamasasí como cada vez más avanzados humanoides y maquinas Diseñado para roles especializados en líneas de montaje. Pero todavía estamos esperando a nuestra Rosey the Robotic de Los Supersónicos.
Pero es posible que lleguemos allí pronto. La Inteligencia Física (Pi) de San Francisco ha revelado su modelo de IA generalista para robótica, que puede capacitar a las máquinas existentes para realizar diversas tareas, en este caso, sacar la ropa lavada de la secadora y doblar la ropa, empaquetar delicadamente huevos en su contenedor, moler café. frijoles y mesas de ‘bussing’. No es difícil imaginar que este sistema podría ver a estos ayudantes metálicos móviles recorriendo la casa, aspirando, empacando y desempaquetando el lavavajillas, haciendo la cama, mirando en el refrigerador y la despensa para catalogar su contenido y elaborar un plan para la cena. – y, oye, por qué no, también cocinar esa cena.
Es con esta visión que Pi revela su “modelo basic de robotic de propósito common” conocido como π0 (pi-cero).
En Bodily Intelligence (π) nuestra misión es llevar la IA de propósito common al mundo físico.
Estamos emocionados de mostrar el primer paso hacia esta misión: nuestro primer modelo generalista π₀ 🧠 🤖
Artículo, weblog, vídeos sin cortes: https://t.co/XZ4Luk8Dci pic.twitter.com/XHCu1xZJdq
– Inteligencia física (@physical_int) 31 de octubre de 2024
“Creemos que este es un primer paso hacia nuestro objetivo a largo plazo de desarrollar inteligencia física synthetic, de modo que los usuarios puedan simplemente pedir a los robots que realicen cualquier tarea que quieran, del mismo modo que pueden pedir grandes modelos de lenguaje (LLM) y asistentes de chatbot”. explica la empresa. “Al igual que los LLM, nuestro modelo se entrena con datos amplios y diversos y puede seguir varias instrucciones de texto. A diferencia de los LLM, abarca imágenes, texto y acciones y adquiere inteligencia física al entrenarse con la experiencia encarnada de los robots, aprendiendo a generar directamente datos de bajo nivel. Comandos de motor a través de una arquitectura novedosa. Puede controlar una variedad de robots diferentes y se le puede solicitar que realice la tarea deseada o ajustarlo para especializarlo en escenarios de aplicación desafiantes.
En su investigación, pi-zero demuestra cómo se pueden realizar una variedad de trabajos que requieren diferentes niveles de destreza y movimientos mediante {hardware} entrenado por la IA. En complete, el modelo basic llevó a cabo 20 tareas, todas las cuales requirieron diferentes habilidades y manipulaciones.
“Nuestro objetivo al seleccionar estas tareas no es resolver ninguna aplicación specific, sino comenzar a proporcionar a nuestro modelo una comprensión common de las interacciones físicas, una base inicial para la inteligencia física”, señala el equipo.
π₀ es un generalista de VLA:
– realiza tareas hábiles (plegar la ropa, recoger la mesa y muchas otras)
– la adaptación de flujo y transformador combina los beneficios del preentrenamiento de VLM y fragmentos de acción continua a 50 Hz
– está previamente entrenado en un gran conjunto de datos π que abarca muchos factores de forma pic.twitter.com/zX9hvVdQuH– Inteligencia física (@physical_int) 31 de octubre de 2024
Ahora, soy la última persona en New Atlas que se entusiasma con la robótica, en gran parte porque la mayoría de lo que hemos visto han sido máquinas especializadas y, para ser honesto, ya me he hartado de humanoides moviendo cajas desde el punto A. a B. En biología, los especialistas saben explotar muy bien un nicho (por ejemplo, las abejas, las mariposas y los koalas) y lo hacen excepcionalmente bien. Es decir, hasta que fuerzas externas, como la pérdida de hábitat o las enfermedades, revelan sus limitaciones.
Sin embargo, los generalistas (como un mapache o un oso grizzly) pueden no ser tan buenos ocupando un nicho como otros, pero son mucho más adaptables a una gama más amplia de hábitats y fuentes de alimento. Lo que, en última instancia, los hace más adecuados para los cambios dinámicos del entorno.
De manera comparable, los robots generalistas podrán hacer más que construye una pared de ladrillos de manera experta; y, capaces de aprender, podrán adaptarse a diferentes desafíos del mundo físico y tendrán un conjunto de habilidades en constante evolución.
Pi-zero utiliza un entrenamiento previo del modelo de visión y lenguaje (VLM) a escala de Web con coincidencia de flujo para sincronizar sus movimientos con sus aprendizajes de IA. Su formación previa incluyó 10.000 horas de “datos de manipulación diestra” de siete configuraciones de robotic diferentes, así como 68 tareas. Esto se sumó a los conjuntos de datos de manipulación de robots existentes de OXE, DROID y Bridge.
Comparamos π₀ y π₀-small (versión que no es VLM) con varios modelos anteriores:
– Octo y OpenVLA para VLA de 0 disparos
– ACT y Política de Difusión para una sola tareaSupera el disparo cero en tareas vistas, ajuste de tareas nuevas y lenguaje siguiente pic.twitter.com/TUDsFjitDr
– Inteligencia física (@physical_int) 31 de octubre de 2024
“La hábil manipulación del robotic requiere que pi-zero emita comandos del motor a alta frecuencia, hasta 50 veces por segundo”, señala el equipo. “Para proporcionar este nivel de destreza, desarrollamos un método novedoso para aumentar los VLM previamente entrenados con resultados de acción continua mediante coincidencia de flujo, una variante de los modelos de difusión. A partir de diversos datos de robots y un VLM previamente entrenado con datos a escala de Web, Entrenamos nuestro modelo de coincidencia de flujo de visión, lenguaje y acción, que luego podemos entrenar posteriormente con datos de robots de alta calidad para resolver una variedad de tareas posteriores.
“Hasta donde sabemos, esto representa la mayor mezcla de preentrenamiento jamás utilizada para un modelo de manipulación de robots”, señalaron los investigadores en su estudio.
Si bien la empresa aún se encuentra en sus inicios de investigación y desarrollo, el cofundador y director ejecutivo de Pi, Karol Hausman, un científico que anteriormente trabajó en robótica en Google, cree que su modelo basic superará los obstáculos existentes en el campo de la generalización, incluida la cantidad de tiempo y costo involucrados en entrenar el {hardware} en datos del mundo físico para aprender nuevas tareas. El equipo de Pi también incluye al cofundador Sergey Levine, pionero en el desarrollo de la robótica en la Universidad de Stanford, y a Brian Ichter, ex científico investigador de Google.
En 2023, el satírico y arquitecto Karl Sharro se volvió viral con su tweet: “Que los humanos hagan trabajos duros con un salario mínimo mientras los robots escriben poesía y pintan no es el futuro que quería”. El mismo año, Hollywood se paralizó cuando los miembros del Writers Guild of America se declararon en huelga, al ver el sombrío camino que les esperaba a los creativos frente a esta nueva period de la tecnología.
Y si bien es posible que la IA siga llegando (y ya ha llegado) durante muchos de nuestros trabajos (No es necesario que nos lo recuerden a los periodistas), la visión de Pi parece más acorde con la de los futuristas de mediados del siglo XX, que vieron un mundo en el que las máquinas nos hacían la vida más fácil. Llámame ingenuo, tal vez, pero si viene un robotic a hacer mis tareas domésticas, podrá hacerlo.
Puedes ver más movies de los ejercicios por los que el equipo realizó los robots pi-zero en el Publicación del weblog de Pipero aquí hay uno que demuestra su impresionante – y delicado – trabajo.
Clasificar huevos procesados
Puede encontrar el trabajo de investigación sobre el desarrollo y la formación de pi-zero. aquí.
Fuente: Inteligencia física