Si bien Group Notes tiene el potencial de ser extremadamente efectivo, el trabajo difícil de la moderación de contenido se beneficia de una combinación de diferentes enfoques. Como profesor de procesamiento del lenguaje pure en Mbzuai, he pasado la mayor parte de mi carrera investigando la desinformación, la propaganda y las noticias falsas en línea. Entonces, una de las primeras preguntas que me hice fue: ¿Reemplazar los cheques de hechos humanos con notas de la comunidad de crowdsourced tendrá impactos negativos en los usuarios?

Sabiduría de multitudes
Las notas de la comunidad obtuvieron su Empiece en Twitter como Birdwatch. Es una característica de crowdsourced donde los usuarios que participan en el programa pueden agregar contexto y aclaración a lo que consideran tweets falsos o engañosos. Las notas están ocultas hasta que la evaluación de la comunidad llega a un consenso: las personas que tienen diferentes perspectivas y puntos de vista políticos están de acuerdo en que un puesto es engañoso. Un algoritmo determina cuándo se alcanza el umbral para el consenso, y luego la nota se vuelve seen públicamente debajo del tweet en cuestión, proporcionando un contexto adicional para ayudar a los usuarios a hacer juicios informados sobre su contenido.
Las notas de la comunidad parecen funcionar bastante bien. Un equipo de investigadores de la Universidad de Illinois Urbana-Champaign y la Universidad de Rochester descubrió que el programa de Notas Comunitarias de X puede reducir la propagación de la información errónea, conduciendo a retracciones postales por autores. Fb está adoptando en gran medida el mismo enfoque que se usa en X hoy.
Habiendo estudiado y escrito sobre la moderación de contenido durante años, es genial ver a otra importante compañía de redes sociales que implementan crowdsourcing para la moderación de contenido. Si funciona para Meta, podría ser un verdadero cambio de juego para las más de 3 mil millones de personas que usan los productos de la compañía todos los días.
Dicho esto, la moderación del contenido es un problema complejo. No hay una bala de plata que funcione en todas las situaciones. El desafío solo se puede abordar empleando una variedad de herramientas que incluyen cheques de hechos humanos, crowdsourcing y filtrado algorítmico. Cada uno de estos es el más adecuado para diferentes tipos de contenido, y puede y debe trabajar en concierto.
SPAM Y LLM SEGURIDAD
Hay precedentes para abordar problemas similares. Hace décadas, el correo electrónico de spam period un problema mucho mayor que hoy. En gran parte, hemos derrotado a spam a través del crowdsourcing. Los proveedores de correo electrónico introdujeron funciones de informes, donde los usuarios pueden marcar correos electrónicos sospechosos. Cuanto más ampliamente distribuido sea un mensaje de spam specific, más probabilidades será atrapado, como lo informan más personas.
Otra comparación útil es cómo los modelos de idiomas grandes (LLM) abordan el contenido dañino. Para las consultas más peligrosas, relacionadas con armas o violencia, por ejemplo, muchos LLM simplemente se niegan a responder. Otras veces, estos sistemas pueden agregar un descargo de responsabilidad a sus resultados, como cuando se les pide que brinden asesoramiento médico, authorized o financiero. Este enfoque escalonado es uno que mis colegas y yo en el Mbzuai explorado en un estudio reciente Donde proponemos una jerarquía de formas en que los LLM pueden responder a diferentes tipos de consultas potencialmente dañinas. Del mismo modo, las plataformas de redes sociales pueden beneficiarse de diferentes enfoques para la moderación de contenido.
Los filtros automáticos se pueden utilizar para identificar la información más peligrosa, evitando que los usuarios la vean y la compartan. Estos sistemas automatizados son rápidos, pero solo pueden usarse para ciertos tipos de contenido porque no son capaces de los matices requeridos para la mayoría de la moderación de contenido.