Cuando escribimos algo a otra persona, por correo electrónico o tal vez en las redes sociales, es posible que no declaremos las cosas directamente, pero nuestras palabras pueden transmitir un significado latente, un subtexto subyacente. También a menudo esperamos que este significado llegue al lector.
Pero que pasa si un inteligencia synthetic ¿El sistema está en el otro extremo, en lugar de una persona? ¿Puede la IA, especialmente la IA conversacional, comprender el significado latente en nuestro texto? Y si es así, ¿qué significa esto para nosotros?
El análisis de contenido latente es un área de estudio Preocupado por descubrir los significados, sentimientos y sutilezas más profundos incrustados en el texto. Por ejemplo, este tipo de análisis puede ayudarnos a comprender inclinación política presente en comunicaciones que quizás no sean obvias para todos.
Comprender cuán intensas son las emociones de alguien o si están siendo sarcásticos pueden ser cruciales para apoyar las de una persona. salud psychologicalMejora del servicio al cliente e incluso mantiene a las personas seguras a nivel nacional.
Estos son solo algunos ejemplos. Podemos imaginar beneficios en otras áreas de la vida, como la investigación en ciencias sociales, la formulación de políticas y los negocios. Dado lo importantes que son estas tareas, y cuán rápido está mejorando la IA conversacional, es esencial explorar lo que estas tecnologías pueden (y no) hacer a este respecto.
El trabajo en este tema solo está comenzando. El trabajo precise muestra que ChatGPT ha tenido un éxito limitado en la detección inclinación política en sitios internet de noticias. Otro estudio que se centró en las diferencias en detección de sarcasmo entre diferentes modelos de idiomas grandes—La tecnología detrás de los chatbots de IA como ChatGPT – mostró que algunos son mejores que otros.
Finalmente, un estudio mostró que LLMS puede adivinar La “valencia” emocional de las palabras: el sentimiento positivo o negativo inherente asociado con ellas. Nuestro nuevo estudio publicado en Informes científicos Probado si la IA conversacional, que incluye GPT-4, una versión relativamente reciente de ChatGPT, puede leer entre las líneas de los textos escritos por humanos.
El objetivo period averiguar qué tan bien LLMS simulan la comprensión del sentimiento, inclinación políticaintensidad emocional y sarcasmo, que abarca múltiples significados latentes en un estudio. Este estudio evaluó la fiabilidad, la consistencia y la calidad de siete LLM, incluidos GPT-4, Gemini, LLAMA-3.1-70B y MixTral 8 × 7b.
Descubrimos que estos LLM son tan buenos como los humanos para analizar el sentimiento, la inclinación política, la intensidad emocional y la detección de sarcasmo. El estudio involucró a 33 sujetos humanos y evaluó 100 elementos curados de texto.
Para detectar inclinaciones políticas, GPT-4 fue más consistente que los humanos. Eso es importante en los campos como el periodismo, la ciencia política o la salud pública, donde el juicio inconsistente puede sesgar hallazgos o perder patrones.
GPT-4 también demostró ser capaz de captar la intensidad emocional y especialmente la valencia. Si un tweet estaba compuesto por alguien que estaba ligeramente molesto o profundamente indignado, la IA podía decir, aunque alguien aún tenía que confirmar si la IA period correcta en su evaluación. Esto se debió a que la IA tiende a minimizar las emociones. El sarcasmo siguió siendo un obstáculo tanto para humanos como para máquinas.
El estudio no encontró un ganador claro allí, por lo tanto, usar evaluadores humanos no ayuda mucho con la detección de sarcasmo.
¿Por qué importa esto? Por un lado, la IA como GPT-4 podría reducir drásticamente el tiempo y el costo de analizar grandes volúmenes de contenido en línea. Los científicos sociales a menudo pasan meses analizando el texto generado por el usuario para detectar tendencias. GPT-4, por otro lado, abre la puerta a una investigación más rápida y receptiva, especialmente importante durante las disaster, las elecciones o las emergencias de salud pública.
Los periodistas y los verificadores de hechos también pueden beneficiarse. Las herramientas impulsadas por GPT-4 podrían ayudar a marcar publicaciones emocionalmente cargadas o inclinadas políticamente en tiempo actual, dando a las salas de redacción una ventaja.
Todavía hay preocupaciones. La transparencia, la equidad y las inclinaciones políticas en la IA siguen siendo problemas. Sin embargo, estudios como este sugieren que cuando se trata de comprender el lenguaje, las máquinas nos están alcanzando rápidamente, y pronto pueden ser compañeros de equipo valiosos en lugar de simples herramientas.
Aunque este trabajo no afirma que la IA conversacional puede reemplazar a los evaluadores humanos por completo, desafía la concept de que las máquinas no tienen esperanza para detectar matices.
Los hallazgos de nuestro estudio plantean preguntas de seguimiento. Si un usuario hace la misma pregunta de la IA de múltiples maneras, tal vez reflexionando sutilmente, cambiando el orden de información o ajustando la cantidad de contexto proporcionado, ¿los juicios y calificaciones subyacentes del modelo seguirán siendo consistentes?
La investigación adicional debe incluir un análisis sistemático y riguroso de cuán estables son las salidas de los modelos. En última instancia, comprender y mejorar la consistencia es esencial para implementar LLM a escala, especialmente en entornos de alto riesgo.
Este artículo se republicó de La conversación bajo una licencia Inventive Commons. Leer el artículo authentic.