30.9 C
Colombia
domingo, julio 6, 2025

Los investigadores desarrollan un nuevo modelo basado en votos para una estimación de pose de objetos de mano más precisa


Muchas aplicaciones robóticas se basan en brazos o manos robóticas para manejar diferentes tipos de objetos. Estimación de la pose de tales objetos portátiles es una tarea importante pero desafiante en robótica, visión por computadora e incluso en aplicaciones de realidad aumentada (AR). Una dirección prometedora es utilizar datos multimodales, como imágenes de coloration (RGB) y profundidad (D). Con la mayor disponibilidad de sensores 3D, han surgido muchos enfoques de aprendizaje automático para aprovechar esta técnica.

Sin embargo, los enfoques existentes aún enfrentan dos desafíos principales. Primero, enfrentan caídas de precisión cuando las manos ocluyen los objetos sostenidos, oscureciendo las características críticas necesarias para la estimación de pose. Además, las interacciones de objeto guide introducen transformaciones no rígidas, lo que complica aún más el problema. Esto sucede cuando las manos cambian la forma o estructura del objeto sostenido, como cuando se aprieta una bola blanda, distorsionando la forma percibida del objeto. En segundo lugar, la mayoría de las técnicas actuales extraen características de los troncos RGB y RGB-D separados, que luego se fusionan en el nivel de característica. Dado que estas dos backbons manejan modalidades inherentemente diferentes, esta fusión puede dar como resultado cambios de distribución de representación, lo que significa que las características aprendidas de las imágenes RGB pueden desalinearse con las extraídas de las entradas RGB-D, lo que afecta la estimación de la pose. Además, durante el ajuste, las interacciones densas entre las dos troncos causan interrupciones del rendimiento y limitan los beneficios de incorporar las características de RGB.

Para abordar estos problemas, un equipo de investigación dirigido por el profesor asociado Phan Xuan Tan del innovador programa international, la Facultad de Ingeniería del Instituto de Tecnología de Shibaura, Japón, junto con el Dr. Dinh-Cuong Hoang y otros investigadores de la Universidad FPT, Vietnam, desarrolló una innovadora pink de neural profundo diseñada específicamente para la estimación de poses utilizando imágenes RGB-D. “The important thing innovation of our deep studying framework lies in a vote-based fusion mechanism, which successfully integrates each 2D (RGB) and 3D (depth) keypoints, whereas addressing hand-induced occlusions and the difficulties of fusing multimodal information. Moreover, it decouples the educational course of and incorporates a self-attention-based hand-object interplay mannequin, leading to substantial enhancements,” explains Dr. Tan. Su estudio se puso a disposición en línea el 17 de febrero de 2025, y se publicará en el Volumen 120 de Alexandria Engineering Journal en mayo de 2025.

El marco propuesto de aprendizaje profundo comprende cuatro componentes: backbons para extraer características de alta dimensión de imágenes 2D y datos de nubes de puntos 3D, módulos de votación, un nuevo módulo de fusión basado en votos y un módulo de estimación de pose de objetos conscientes de la mano. Inicialmente, las columnas de 2D y 3D predicen puntos clave 2D y 3D de ambas manos y objetos de las imágenes RGB-D. Los puntos clave se refieren a las ubicaciones significativas en las imágenes de entrada que ayudan a describir la pose de las manos y los objetos. A continuación, los módulos de votación dentro de cada columna vertebral emitieron votos independientemente por sus respectivos puntos clave.

Estos votos se integran mediante el modelo de fusión basado en votos, que combina dinámicamente los votos 2D y 3D utilizando la proyección del vecindario basada en el radio y los mecanismos de atención del canal. El primero conserva la información native, mientras que el segundo se adapta a diferentes condiciones de entrada, asegurando la robustez y la precisión. Esta fusión basada en votos aprovecha efectivamente las fortalezas de RGB e información de profundidad, mitigando el impacto de las oclusiones y desalineación inducidas por la mano, por lo tanto, permitiendo una estimación precisa de pose de objetos manuales.

El componente remaining, el módulo de estimación del objeto consciente de la mano, mejora aún más la precisión mediante el uso de un mecanismo de autoatensión para capturar las complejas relaciones entre los puntos clave de mano y los objetos. Esto permite que el sistema tenga en cuenta las transformaciones no rígidas causadas por diferentes posturas y agarres de manos.

Para probar su marco, los investigadores realizaron experimentos en tres conjuntos de datos públicos. Los resultados mostraron mejoras significativas en la precisión (hasta el 15%) y la robustez sobre los enfoques de última generación. Además, los experimentos en el sitio demostraron una precisión promedio del 76.8%, con mejoras de rendimiento de hasta 13.9% en comparación con los métodos existentes. El marco también logra tiempos de inferencia de hasta 40 milisegundos sin refinamiento y 200 milisegundos con refinamiento, lo que demuestra la aplicabilidad del mundo actual.

“Nuestra investigación aborda directamente un cuello de botella de larga information en las industrias de robótica y visión por computadora: una estimación precisa de pose de objetos en escenarios de interacción ocluyados, dinámicos y complejos de objeto guide”, comenta el Dr. Tan. “Nuestro enfoque no solo es más preciso sino también más easy que muchas técnicas existentes. Tiene el potencial de acelerar el despliegue de sistemas con IA, como líneas de ensamblaje robóticas automatizadas eficientes, robótica asistida humana y tecnologías inmersivas de AR/VR”.

En normal, este enfoque innovador representa un paso adelante significativo en la robótica, lo que permite a los robots manejar de manera más efectiva objetos complejos y avanzar en tecnologías AR para modelar interacciones más realistas de objeto guide.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles