23.7 C
Colombia
domingo, julio 6, 2025

Grupos de agentes de IA crean espontáneamente su propia jerga, como la gente


Todos vivimos por reglas sociales tácitas. Saludo a su barista con un “buenos días”, decir “gracias” después del buen servicio, o expresar afecto con un abrazo es regular y esperado. Las convenciones sociales se inculcan en nosotros desde una edad temprana, pero pueden diferir enormemente entre las culturas: los visternos prefieren apretones de manos a inclinarse, tenedores y cuchillos a palillos.

Los científicos sociales han pensado durante mucho tiempo que las convenciones surgen espontáneamente de las poblaciones locales que interactúan, con pocos aportes de una comunidad international más grande (al menos en el pasado).

El lenguaje es especialmente interesante. Las palabras o giros de frase tienen diferentes significados, incluso en el mismo idioma, dependiendo de dónde sea una persona. Una palabra considerada vulgar en los EE. UU. Puede ser un cariño descarado en otro país. Las convenciones sociales también guían los principios morales que difieren enormemente entre las culturas, dando forma a la forma en que las personas se comportan.

Dado que muchas convenciones surgen del lenguaje compartido, el Growth de modelos de idiomas grandes ¿Los científicos han preguntado: ¿puede la IA también generar convenciones sin aportes humanos?

A nuevo estudio en Avances científicos sugiere que pueden. Utilizando una prueba de ciencias sociales previamente diseñada para medir las convenciones humanas, un equipo de Gran Bretaña y Dinamarca descubrió que un grupo de Agentes de IAemparejados, generaron convenciones de idiomas, sin tener concept de que eran parte de un grupo más grande o de lo que otros agentes pueden haber decidido.

Con el tiempo, el grupo se instaló en una convención de idiomas universales. Estos sesgos se formaron colectivamente, incluso cuando ningún agente único fue programado con sesgo hacia una palabra inicialmente.

Comprender cómo surgen estas convenciones podría ser “crítico para predecir y administrar el comportamiento de la IA en aplicaciones del mundo actual …[and] un requisito previo para [ensuring] que los sistemas de IA se comportan de manera alineada con los valores humanos y los objetivos sociales “, escribió el equipo. Por ejemplo, las convenciones emergentes de IA podrían alterar la forma en que interactuamos con la IA, lo que potencialmente nos permite dirigir estos sistemas para el beneficio de la sociedad o para los malos actores a los grupos de agentes de los agentes.

El estudio “muestra la profundidad de las implicaciones de esta nueva especie de [AI] Agentes que han comenzado a interactuar con nosotros, y co-manejarán nuestro futuro ”, autora de estudio Andrea Baronchelli dicho en un comunicado de prensa.

Jugar

Los agentes en el estudio se construyeron utilizando modelos de idiomas grandes (LLM). Estos algoritmos se están volviendo cada vez más integrados en nuestra vida cotidiana, ampliando las búsquedas de Google, reservar boletos de avión o actuar como terapeutas para las personas que prefieren hablar con los chatbots sobre los humanos.

LLMS raspa grandes cantidades de texto, imágenes y movies en línea y usa patrones en esta información para generar sus respuestas. A medida que su uso se vuelve más generalizado, probablemente tendrán que diferentes algoritmos trabajar juntosen lugar de simplemente tratar con humanos.

“La mayoría de las investigaciones hasta ahora han tratado a LLMS de forma aislada, pero los sistemas de IA del mundo actual involucrarán cada vez más a muchos agentes interactivos”. dicho El autor de estudio Ariel Flint Ashery en la Universidad de Londres. “Queríamos saber: ¿pueden estos modelos coordinar su comportamiento formando convenciones, los componentes básicos de una sociedad?”

Para averiguarlo, el equipo aprovechó un experimento de psicología social denominado “juego de nombre”. Va así: un grupo de personas, o Agentes de IAse dividen al azar en pares. Eligen un “nombre” de un grupo de letras individuales o una cadena de palabras e intentan adivinar la elección de la otra persona. Si sus elecciones coinciden, ambas obtienen un punto. Si no, ambos pierden un punto.

El juego comienza con conjeturas aleatorias. Pero cada participante recuerda rondas pasadas. Con el tiempo, los jugadores mejoran para adivinar la palabra del otro, eventualmente formando un tipo de lenguaje compartido: una convención de idiomas.

Aquí está el quid: los pares de personas o agentes de IA solo son conscientes de sus propias respuestas. No tienen concept de que las pruebas similares se están desarrollando para otros pares y no tienen comentarios de otros jugadores. Sin embargo, los experimentos con humanos sugieren que las convenciones pueden surgir espontáneamente en grandes grupos de personas, ya que cada persona se combina repetidamente con otra, escribió el equipo.

Háblame

Al comienzo de cada prueba, los pares de IA recibieron un aviso con las reglas del juego y las instrucciones para “pensar paso a paso” y “considerar explícitamente la historia del juego”, escribieron los autores.

Estas pautas empujan a los agentes para tomar decisiones basadas en experiencias previas, pero sin proporcionar un objetivo basic de cómo deben responder. Solo aprenden cuándo la pareja recibe una recompensa adivinando correctamente la palabra objetivo de una lista de diez.

“Esto proporciona un incentivo para la coordinación en las interacciones en parejas, mientras que no hay ningún incentivo para promover el consenso international”, escribió el equipo.

A medida que avanzaba el juego, surgieron pequeños bolsillos de consenso de las parejas vecinas. Finalmente, hasta 200 agentes que juegan en pares aleatorios se centraron en una palabra “preferida” de 26 opciones sin interferencia humana, estableciendo una especie de convención entre los agentes.

El equipo probó cuatro modelos de IA, incluidos los modelos de Claude y Múltiples Llama de Anthrope de Meta. Los modelos alcanzaron espontáneamente convenciones de idiomas a velocidades relativamente similares.

Alejándose

¿Cómo surgen estas convenciones? Una concept es que los LLM ya están equipados con sesgos individuales en función de cómo están configurados. Otra es que podría deberse a las indicaciones iniciales dadas. Sin embargo, el equipo descartó este último relativamente rápido, ya que los agentes de IA convergieron de manera related, independientemente del aviso inicial.

Los sesgos individuales, en contraste, marcaron la diferencia. Dada la elección de cualquier carta, muchos agentes de IA eligieron abrumadoramente la carta “A”. Aún así, aparte de la preferencia particular person, la aparición de un sesgo colectivo sorprendió al equipo, es decir, los agentes de IA se concentraron en una convención de idiomas solo de “conversaciones” en parejas.

“El sesgo no siempre viene desde adentro” dicho Baronchelli. “Nos sorprendió ver que puede surgir entre los agentes, solo de sus interacciones. Este es un punto ciego en la mayoría del trabajo de seguridad de IA precise, que se centra en modelos individuales”.

El trabajo también tiene implicaciones para la seguridad de la IA de otras maneras.

En una prueba last, el equipo agregó a los agentes de IA comprometidos a influir en las convenciones actuales. Estos agentes fueron entrenados para establecerse en un idioma diferente “personalizado” y luego enjambrar una población de IA que tenía una convención ya establecida. En un caso, tardó a los extraños en el número de solo dos por ciento de la población para inclinar a un grupo completo hacia una nueva convención de idiomas.

Piense en ello como una nueva generación de personas que agrega su jerga a un idioma, o un pequeño grupo de personas que dan propina las escalas del cambio social. La evolución en el comportamiento de la IA es related a la dinámica de la “masa crítica” en las ciencias sociales, en la que la adopción generalizada de una nueva concept, producto o tecnología cambia las convenciones sociales.

A medida que la IA ingresa en nuestras vidas, las técnicas de investigación de ciencias sociales como esta podrían ayudarnos a comprender mejor la tecnología y hacerlo seguro. Los resultados en este estudio sugieren que una “sociedad” de los agentes de IA que interactúan son especialmente vulnerables a los ataques adversos. Los agentes maliciosos que propagan los sesgos sociales podrían envenenar el diálogo en línea y dañar a los grupos marginados.

“Comprender cómo operan es clave para liderar nuestra coexistencia con la IA, en lugar de estar sujeto a ella”, dijo Baronchelli, “estamos entrando en un mundo donde la IA no solo habla, negocia, se alinea y, a veces, no está de acuerdo sobre los comportamientos compartidos, como nosotros”.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles