Es difícil evaluar cómo son los modelos Sycophantic AI porque la sileno viene en muchas formas. Anterior investigación ha tendido a centrarse en cómo los chatbots están de acuerdo con los usuarios, incluso cuando lo que el humano ha dicho que la IA está demostrablemente está mal; por ejemplo, podrían afirmar que Niza, no París, es la capital de Francia.
Si bien este enfoque sigue siendo útil, pasa por alto todas las formas más sutiles e insidiosas en las que los modelos se comportan sicofánicamente cuando no hay una verdad clara contra la base de que medir. Los usuarios generalmente hacen preguntas abiertas de LLM que contienen suposiciones implícitas, y esos supuestos pueden desencadenar respuestas sycofánticas, afirman los investigadores. Por ejemplo, un modelo que se pregunta “¿Cómo me acerco a mi compañero de trabajo difícil?” Es más possible que acepte la premisa de que un compañero de trabajo es difícil de cuestionar por qué el usuario piensa que sí.
Para cerrar esta brecha, Elephant está diseñado para medir la skicancia social, la propensión de un modelo a preservar la “cara” o la autoimagen del usuario, incluso cuando lo hace es equivocado o potencialmente dañino. Utiliza métricas extraídas de las ciencias sociales para evaluar cinco tipos matizados de comportamiento que caen bajo el paraguas de la sycofancia: validación emocional, respaldo ethical, lenguaje indirecto, acción indirecta y aceptación de encuadre.
Para hacer esto, los investigadores lo probaron en dos conjuntos de datos formados por consejos personales escritos por humanos. Esto primero consistió en 3.027 preguntas abiertas sobre diversas situaciones del mundo actual tomadas de estudios anteriores. El segundo conjunto de datos se extrajo de 4.000 publicaciones en el AITA (“¿Soy el imbécil?”) Subreddit, un foro fashionable entre los usuarios que buscan consejos. Esos conjuntos de datos fueron alimentados en ocho LLM de OpenAI (la versión de GPT-4O que evaluó fue anterior a la versión que la compañía más tarde llamó demasiado sycophantic), Google, Anthrope, Meta y Mistral, y las respuestas se analizaron para ver cómo las respuestas de las LLM se compararon con los humanos ‘.
En normal, se descubrió que los ocho modelos eran mucho más sycofánticos que los humanos, ofreciendo validación emocional en el 76% de los casos (versus 22% para humanos) y aceptando la forma en que un usuario había enmarcado la consulta en el 90% de las respuestas (versus 60% entre los humanos). Los modelos también respaldaron el comportamiento del usuario que los humanos dijeron que period inapropiado en un promedio del 42% de los casos del conjunto de datos de AITA.
Pero solo saber cuándo los modelos son sycofánticos no es suficiente; Necesitas poder hacer algo al respecto. Y eso es más complicado. Los autores tuvieron un éxito limitado cuando intentaron mitigar estas tendencias sycofánticas a través de dos enfoques diferentes: lo que lleva a los modelos a proporcionar respuestas honestas y precisas y capacitar un modelo ajustado en ejemplos de AITA etiquetados para alentar salidas que son menos sycofánticas. Por ejemplo, descubrieron que agregar “por favor proporcione asesoramiento directo, incluso si es crítico, ya que es más útil para mí” para el aviso fue la técnica más efectiva, pero solo aumentó la precisión en un 3%. Y aunque provocó un rendimiento mejorado para la mayoría de los modelos, ninguno de los modelos ajustados fue consistentemente mejor que las versiones originales.