22.9 C
Colombia
sábado, julio 5, 2025

Extraño. Los humanos aún son mejores que la IA en leer la habitación


Resulta que los humanos son mejores que los modelos AI actuales para describir e interpretar las interacciones sociales en una escena conmovedora, una habilidad necesaria para autos autónomos, robots de asistencia y otras tecnologías que dependen de los sistemas de IA para navegar por el mundo actual.

La investigación, dirigida por científicos de la Universidad Johns Hopkins, encuentra que los sistemas de inteligencia synthetic fallan en la comprensión de la dinámica social y el contexto necesarios para interactuar con las personas y sugiere que el problema puede estar basado en la infraestructura de los sistemas de IA.

“La IA para un automóvil autónomo, por ejemplo, necesitaría reconocer las intenciones, los objetivos y las acciones de los conductores humanos y los peatones. Desea que sepa de qué manera un peatón está a punto de comenzar a caminar, o si dos personas están en una conversación en lugar de cruzar la calle”, dijo la autora principal de Leyla Isik, profesora asistente de ciencias cognitivas en la Universidad de Johns Hopkins. “Cada vez que quieras que una IA interactúe con los humanos, quieres que pueda reconocer lo que la gente está haciendo. Creo que esto arroja luz sobre el hecho de que estos sistemas no pueden en este momento”.

Kathy García, una estudiante de doctorado que trabaja en el laboratorio de ISIK en el momento de la investigación de la investigación y co-directa, presentará los resultados de la investigación en la Conferencia Internacional sobre Representaciones de Aprendizaje el 24 de abril.

Para determinar cómo se miden los modelos de IA en comparación con la percepción humana, los investigadores pidieron a los participantes humanos que vieran videoclips de tres segundos y las características de calificación importantes para comprender las interacciones sociales en una escala de uno a cinco. Los clips incluyeron personas que interactuaron entre sí, realizaban actividades de lado a lado o realizaban actividades independientes por su cuenta.

Luego, los investigadores solicitaron más de 350 modelos de lenguaje, video e imagen de IA para predecir cómo los humanos juzgarían los movies y cómo sus cerebros responderían a la observación. Para modelos de idiomas grandes, los investigadores hicieron que los AI evaluaran subtítulos cortos y escritos por humanos.

Los participantes, en su mayor parte, estuvieron de acuerdo entre sí en todas las preguntas; Los modelos de IA, independientemente del tamaño o los datos en los que fueron entrenados, no lo hicieron. Los modelos de video no pudieron describir con precisión lo que la gente estaba haciendo en los movies. Incluso los modelos de imagen que recibieron una serie de marcos aún para analizar no podían predecir de manera confiable si las personas se estaban comunicando. Los modelos de lenguaje fueron mejores para predecir el comportamiento humano, mientras que los modelos de video fueron mejores para predecir la actividad neuronal en el cerebro.

Los resultados proporcionan un fuerte contraste con el éxito de la IA en la lectura de imágenes fijas, dijeron los investigadores.

“No es suficiente ver una imagen y reconocer objetos y caras. Ese fue el primer paso, lo que nos llevó mucho a la IA. Pero la vida actual no es estática. Necesitamos AI para comprender la historia que se está desarrollando en una escena. Comprender las relaciones, el contexto y la dinámica de las interacciones sociales es el próximo paso, y esta investigación sugiere que podría haber un punto ciego en el desarrollo del modelo de IA”, dijo Garcia.

Los investigadores creen que esto se debe a que las redes neuronales de IA se inspiraron en la infraestructura de la parte del cerebro que procesa imágenes estáticas, que es diferente del área del cerebro que procesa escenas sociales dinámicas.

“Hay muchos matices, pero la gran comida para llevar es que ninguno de los modelos de IA puede igualar el cerebro humano y las respuestas de comportamiento a las escenas en todos los ámbitos, como lo hacen para escenas estáticas”, dijo Isik. “Creo que hay algo elementary en la forma en que los humanos están procesando escenas que faltan estos modelos”.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles