30.9 C
Colombia
domingo, julio 6, 2025

Los ingenieros traen lenguaje de señas a la ‘vida’ utilizando AI para traducir en tiempo actual


Para millones de personas sordas y con problemas de audición en todo el mundo, las barreras de comunicación pueden hacer que las interacciones cotidianas sean desafiantes. Las soluciones tradicionales, como los intérpretes de lenguaje de señas, a menudo son escasas, caras y dependientes de la disponibilidad humana. En un mundo cada vez más digital, la demanda de tecnologías inteligentes y de asistencia que ofrecen soluciones de comunicación en tiempo actual, precisas y accesibles está creciendo, con el objetivo de cerrar esta brecha crítica.

El lenguaje de señas americano (ASL) es uno de los idiomas de signos más utilizados, que consiste en distintos gestos de las manos que representan letras, palabras y frases. Los sistemas de reconocimiento de ASL existentes a menudo luchan con el rendimiento en tiempo actual, la precisión y la robustez en diversos entornos.

Un desafío importante en los sistemas ASL radica en distinguir gestos visualmente similares como “A” y “T” o “M” y “N”, lo que a menudo conduce a clasificaciones erróneas. Además, la calidad del conjunto de datos presenta obstáculos significativos, que incluyen una resolución de imagen deficiente, desenfoque de movimiento, iluminación inconsistente y variaciones en tamaños de mano, tonos de piel y fondos. Estos factores introducen sesgo y reducen la capacidad del modelo para generalizar en diferentes usuarios y entornos.

Para abordar estos desafíos, los investigadores de la Facultad de Ingeniería e Informática de la Florida Atlantic College han desarrollado un innovador sistema de interpretación de ASL en tiempo actual. Combinando el poder de detección de objetos de Yolov11 con el seguimiento de manos preciso de MediaPipe, el sistema puede reconocer con precisión las letras del alfabeto ASL en tiempo actual. Utilizando el aprendizaje profundo avanzado y el seguimiento clave de los puntos de mano, traduce los gestos de ASL en texto, lo que permite a los usuarios deletrear nombres, ubicaciones y más con una precisión notable.

En esencia, una cámara net incorporada sirve como un sensor sin contacto, capturando datos visuales en vivo que se convierten en marcos digitales para el análisis de gestos. MediaPipe identifica 21 puntos clave en cada mano para crear un mapa esquelético, mientras que Yolov11 usa estos puntos para detectar y clasificar las letras ASL con alta precisión.

“Lo que hace que este sistema sea especialmente notable es que toda la tubería de reconocimiento, desde capturar el gesto hasta la clasificación, funciona a la perfección en tiempo actual, independientemente de las diferentes condiciones o fondos de iluminación”, dijo Bader Alsharif, el primer autor y un doctorado. Candidato en el Departamento de Ingeniería Eléctrica e Informática de FAU. “Y todo esto se logra utilizando {hardware} estándar y estándar. Esto subraya el potencial práctico del sistema como una tecnología de asistencia altamente accesible y escalable, lo que lo convierte en una solución viable para aplicaciones del mundo actual”.

Resultados del estudio, publicado en la revista Sensoresconfirme la efectividad del sistema, que logró una precisión del 98.2% (precisión promedio media, MAP@0.5) con una latencia mínima. Este hallazgo destaca la capacidad del sistema para ofrecer una alta precisión en tiempo actual, lo que lo convierte en una solución superb para aplicaciones que requieren un rendimiento rápido y confiable, como el procesamiento de movies en vivo y las tecnologías interactivas.

Con 130,000 imágenes, el conjunto de datos de gestos manuales del alfabeto ASL incluye una amplia variedad de gestos manuales capturados en diferentes condiciones para ayudar a los modelos a generalizarse mejor. Estas condiciones cubren diversos entornos de iluminación (brillantes, tenues y sombreados), una variedad de fondos (escenas tanto al aire libre como en interiores) y varios ángulos y orientaciones manuales para garantizar la robustez.

Cada imagen se anota cuidadosamente con 21 puntos de punto clave, que resaltan estructuras de mano esenciales como las yemas de los dedos, los nudillos y la muñeca. Estas anotaciones proporcionan un mapa esquelético de la mano, lo que permite que los modelos distinguen entre gestos similares con una precisión excepcional.

“Este proyecto es un gran ejemplo de cómo se puede aplicar AI de vanguardia para servir a la humanidad”, dijo Imad Mahgoub, Ph.D., coautor y profesor de Tecore en el Departamento de Ingeniería Eléctrica e Informática de FAU. “Al fusionar el aprendizaje profundo con la detección de manchas de manos, nuestro equipo creó un sistema que no solo logra una alta precisión, sino que también sigue siendo accesible y práctico para el uso diario. Es un fuerte paso hacia las tecnologías de comunicación inclusivas”.

La población sorda en los EE. UU. Es aproximadamente 11 millones, o 3.6% de la población, y aproximadamente el 15% de los adultos estadounidenses (37.5 millones) experimentan dificultades auditivas.

“La importancia de esta investigación radica en su potencial para transformar la comunicación para la comunidad sorda al proporcionar una herramienta impulsada por la IA que traduce los gestos del lenguaje de señas estadounidense en texto, permitiendo interacciones más suaves en la educación, los lugares de trabajo, la atención médica y los entornos sociales”, dijo Mohammad Ilyas, Ph.D., coautor y profesor en el departamento de FAU de la Ingeniería Eléctrica y las Ciencias de la Computación. “Al desarrollar un sistema de interpretación de ASL robusto y accesible, nuestro estudio contribuye al avance de las tecnologías de asistencia para romper las barreras para la población sorda y con problemas de audición”.

El trabajo futuro se centrará en expandir las capacidades del sistema desde el reconocimiento de las cartas de ASL individuales hasta la interpretación de oraciones ASL completas. Esto permitiría una comunicación más pure y fluida, lo que permite a los usuarios transmitir pensamientos y frases enteros sin problemas.

“Esta investigación destaca el poder transformador de las tecnologías de asistencia impulsadas por la IA para empoderar a la comunidad sorda”, dijo Stella Batalama, Ph.D., decana de la Facultad de Ingeniería e Informática. “Al cerrar la brecha de comunicación a través del reconocimiento de ASL en tiempo actual, este sistema desempeña un papel clave en el fomento de una sociedad más inclusiva. Permite que las personas con discapacidades auditivas interactúen de manera más perfecta con el mundo que los rodea, ya sea que sean a sí mismos, navegando por su entorno o simplemente participan en conversaciones de todos los días. Esta tecnología no solo mejora la accesibilidad, sino que también respalda una mayor integración social y ayuda a crear una comunidad más conectada y empatada por la comunidad y la empatía por la comunidad y la empatía por la comunidad de todos los días”. “

Los coautores del estudio son Easa Alalwany, Ph.D., un reciente Ph.D. Graduado de la Facultad de Ingeniería e Informática de FAU y profesor asistente en la Universidad de Taibah en Arabia Saudita; Ali Ibrahim, Ph.D., Ph.D. Graduado del FAU School of Engineering and Pc Science.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles