Cuando tenga una conversación hoy, observe los puntos naturales en los que el intercambio deja abierta la oportunidad para que la otra persona intervenga. Si no tiene el momento adecuado, es posible que la tomen como demasiado agresiva, demasiado tímida o simplemente incómoda.
El ida y vuelta es el elemento social del intercambio de información que ocurre en una conversación, y aunque los humanos hacen esto de forma pure (con algunas excepciones), los sistemas de lenguaje de IA son universalmente malos en eso.
Investigadores de lingüística e informática de la Universidad de Tufts han descubierto algunas de las causas fundamentales de esta deficiencia en las habilidades de conversación de la IA y señalan posibles formas de convertirlos en mejores compañeros de conversación.
Cuando los humanos interactúan verbalmente, en su mayor parte evitan hablar simultáneamente, turnándose para hablar y escuchar. Cada persona evalúa muchas señales de entrada para determinar lo que los lingüistas llaman “lugares relevantes para la transición” o TRP. Los PRT ocurren a menudo en una conversación. Muchas veces dejaremos de lado y dejaremos que el orador continúe. Otras veces usaremos el PRT para tomar nuestro turno y compartir nuestros pensamientos.
JP de Ruiter, profesor de psicología e informática, cube que durante mucho tiempo se pensó que la información “paraverbal” de las conversaciones (las entonaciones, el alargamiento de palabras y frases, las pausas y algunas señales visuales) eran las más importantes. señales importantes para identificar un PRT.
“Eso ayuda un poco”, cube de Ruiter, “pero si quitas las palabras y simplemente le das a la gente la prosodia (la melodía y el ritmo del habla que surge como si estuvieras hablando a través de un calcetín) no pueden ya no detecta los TRP apropiados”.
Haga lo contrario y simplemente proporcione el contenido lingüístico en un discurso monótono, y los sujetos del estudio encontrarán la mayoría de los mismos TRP que encontrarían en el habla pure.
“Lo que ahora sabemos es que la señal más importante para turnarse en una conversación es el contenido del lenguaje en sí. Las pausas y otras señales no importan mucho”, cube de Ruiter.
La IA es excelente para detectar patrones en el contenido, pero cuando De Ruiter, el estudiante graduado Muhammad Umair y el profesor asistente de investigación en ciencias de la computación Vasanth Sarathy probaron conversaciones transcritas con un modelo de lenguaje grande de IA, la IA no pudo detectar TRP apropiados ni cerca del capacidad de los humanos.
La razón surge de en qué está entrenada la IA. Grandes modelos de lenguaje, incluidos los más avanzados como ChatGPT, han sido entrenados en un vasto conjunto de datos de contenido escrito de Web (entradas de Wikipedia, grupos de discusión en línea, sitios internet de empresas, sitios de noticias), casi todo. Lo que falta en ese conjunto de datos es una cantidad significativa de lenguaje conversacional hablado transcrito, que no está escrito, utiliza vocabulario más easy y oraciones más cortas y está estructurado de manera diferente que el lenguaje escrito.
La IA no fue “criada” en la conversación, por lo que no tiene la capacidad de modelar o entablar una conversación de una manera más pure y humana.
Los investigadores pensaron que podría ser posible tomar un modelo de lenguaje grande entrenado en contenido escrito y ajustarlo con entrenamiento adicional en un conjunto más pequeño de contenido conversacional para que pueda participar de manera más pure en una conversación novedosa. Cuando intentaron esto, descubrieron que todavía existían algunas limitaciones para replicar una conversación comparable a la humana.
Los investigadores advierten que puede haber una barrera basic para que la IA mantenga una conversación pure. “Asumimos que estos grandes modelos de lenguaje pueden entender el contenido correctamente. Puede que ese no sea el caso”, dijo Sarathy. “Están prediciendo la siguiente palabra basándose en correlaciones estadísticas superficiales, pero tomar turnos implica recurrir al contexto mucho más profundamente en la conversación”.
“Es posible que las limitaciones puedan superarse mediante el entrenamiento previo de grandes modelos de lenguaje en un cuerpo más grande de lenguaje hablado pure”, dijo Umair, cuya investigación de doctorado se centra en las interacciones entre humanos y robots y es el autor principal de los estudios. “Aunque hemos lanzado un nuevo conjunto de datos de entrenamiento que ayuda a la IA a identificar oportunidades para el habla en diálogos que ocurren naturalmente, recopilar dichos datos a la escala necesaria para entrenar los modelos de IA actuales sigue siendo un desafío importante. Simplemente no hay tantas grabaciones y transcripciones de conversaciones disponibles en comparación con el contenido escrito en Web.”