33.6 C
Colombia
sábado, julio 5, 2025

Detección de texto escrito fantasma mediante modelos de lenguaje grandes – The Berkeley Synthetic Intelligence Analysis Weblog





La estructura de Ghostbuster, nuestro nuevo método de última generación para detectar texto generado por IA.

Los modelos de lenguajes grandes como ChatGPT escriben impresionantemente bien; de hecho, tan bien que se han convertido en un problema. Los estudiantes han comenzado a utilizar estos modelos para realizar tareas de redacción fantasma, lo que ha llevado a algunas escuelas a prohibir ChatGPT. Además, estos modelos también son propensos a producir texto con errores fácticos, por lo que los lectores cautelosos pueden querer saber si se han utilizado herramientas de inteligencia synthetic generativa para escribir artículos de noticias u otras fuentes antes de confiar en ellos.

¿Qué pueden hacer los profesores y los consumidores? Las herramientas existentes para detectar texto generado por IA a veces funcionan mal con datos que difieren de aquellos con los que fueron entrenados. Además, si estos modelos clasifican falsamente la escritura humana actual como generada por IA, pueden poner en peligro a los estudiantes cuyo trabajo genuino se cuestiona.

Nuestro artículo reciente presenta Ghostbuster, un método de última generación para detectar texto generado por IA. Ghostbuster funciona encontrando la probabilidad de generar cada token en un documento bajo varios modelos de lenguaje más débiles y luego combina funciones basadas en estas probabilidades como entrada para un clasificador closing. Ghostbuster no necesita saber qué modelo se utilizó para generar un documento, ni la probabilidad de generar el documento bajo ese modelo específico. Esta propiedad hace que Ghostbuster sea particularmente útil para detectar texto potencialmente generado por un modelo desconocido o un modelo de caja negra, como los populares modelos comerciales ChatGPT y Claude, para los cuales las probabilidades no están disponibles. Estamos particularmente interesados ​​en garantizar que Ghostbuster se generalice bien, por lo que evaluamos una variedad de formas en que se podría generar texto, incluidos diferentes dominios (utilizando conjuntos de datos recién recopilados de ensayos, noticias e historias), modelos de lenguaje o indicaciones.



Ejemplos de texto escrito por humanos y generado por IA a partir de nuestros conjuntos de datos.

¿Por qué este enfoque?

Muchos sistemas actuales de detección de texto generados por IA son frágiles a la hora de clasificar diferentes tipos de texto (por ejemplo, diferentes tipos de escritura). estiloso generación de texto diferente modelos o indicaciones). Modelos más simples que utilizan perplejidad Por lo common, por sí solo no puede capturar características más complejas y funciona especialmente mal en nuevos dominios de escritura. De hecho, descubrimos que una línea de base basada únicamente en la perplejidad period peor que una aleatoria en algunos dominios, incluidos los datos de hablantes no nativos de inglés. Mientras tanto, los clasificadores basados ​​en grandes modelos de lenguaje como RoBERTa capturan fácilmente características complejas, pero se ajustan demasiado a los datos de entrenamiento y generalizan mal: descubrimos que una línea de base de RoBERTa tenía un rendimiento de generalización catastrófico en el peor de los casos, a veces incluso peor que una línea de base de solo perplejidad. Métodos de tiro cero que clasifican texto sin entrenamiento con datos etiquetados, calculando la probabilidad de que el texto haya sido generado por un modelo específico, también tienden a tener malos resultados cuando en realidad se utilizó un modelo diferente para generar el texto.

Cómo funciona el Cazafantasmas

Ghostbuster utiliza un proceso de capacitación de tres etapas: cálculo de probabilidades, selección de características y capacitación de clasificadores.

Probabilidades de cálculo: Convertimos cada documento en una serie de vectores calculando la probabilidad de generar cada palabra en el documento bajo una serie de modelos de lenguaje más débiles (un modelo de unigrama, un modelo de trigrama y dos modelos GPT-3 sin instrucciones, ada y davinci).

Seleccionar funciones: Usamos un procedimiento de búsqueda estructurado para seleccionar características, que funciona (1) definiendo un conjunto de operaciones vectoriales y escalares que combinan las probabilidades, y (2) buscando combinaciones útiles de estas operaciones usando la selección directa de características, agregando repetidamente las mejores. característica restante.

Entrenamiento clasificador: Entrenamos un clasificador lineal con las mejores características basadas en probabilidad y algunas características adicionales seleccionadas manualmente.

Resultados

Cuando se entrenó y probó en el mismo dominio, Ghostbuster logró 99,0 F1 en los tres conjuntos de datos, superando a GPTZero por un margen de 5,9 F1 y DetectGPT por 41,6 F1. Fuera del dominio, Ghostbuster logró un promedio de 97,0 F1 en todas las condiciones, superando a DetectGPT en 39,6 F1 y a GPTZero en 7,5 F1. Nuestra línea de base RoBERTa logró 98,1 F1 cuando se evaluó en el dominio en todos los conjuntos de datos, pero su rendimiento de generalización fue inconsistente. Ghostbuster superó la línea de base de RoBERTa en todos los dominios excepto en escritura creativa fuera del dominio, y tuvo un rendimiento fuera del dominio mucho mejor que RoBERTa en promedio (margen F1 de 13,8).




Resultados sobre el rendimiento dentro y fuera del dominio de Ghostbuster.

Para garantizar que Ghostbuster sea robusto ante la variedad de formas en que un usuario puede solicitar un modelo, como solicitar diferentes estilos de escritura o niveles de lectura, evaluamos la solidez de Ghostbuster ante varias variantes de solicitud. Ghostbuster superó a todos los demás enfoques probados en estas variantes rápidas con 99,5 F1. Para probar la generalización entre modelos, evaluamos el rendimiento en el texto generado por claudiodonde Ghostbuster también superó a todos los demás enfoques probados con 92.2 F1.

Los detectores de texto generados por IA han sido engañados editando ligeramente el texto generado. Examinamos la solidez de Ghostbuster ante ediciones, como intercambiar oraciones o párrafos, reordenar caracteres o reemplazar palabras con sinónimos. La mayoría de los cambios a nivel de oración o párrafo no afectaron significativamente el rendimiento, aunque el rendimiento disminuyó suavemente si el texto se editaba mediante paráfrasis repetidas, utilizando evasores de detección comerciales como IA indetectable o realizando numerosos cambios a nivel de palabras o caracteres. El rendimiento también fue mejor en documentos más largos.

Desde los detectores de texto generados por IA puede clasificar erróneamente texto de hablantes no nativos de inglés generado por IA, evaluamos el desempeño de Ghostbuster en la escritura de hablantes no nativos de inglés. Todos los modelos probados tuvieron más del 95% de precisión en dos de los tres conjuntos de datos probados, pero obtuvieron peores resultados en el tercer conjunto de ensayos más cortos. Sin embargo, la longitud del documento puede ser el issue principal aquí, ya que Ghostbuster funciona casi tan bien en estos documentos (74.7 F1) como en otros documentos fuera del dominio de longitud related (75.6 a 93.1 F1).

Los usuarios que deseen aplicar Ghostbuster a casos del mundo actual de uso potencial prohibido de la generación de texto (por ejemplo, ensayos de estudiantes escritos en ChatGPT) deben tener en cuenta que los errores son más probables para textos más cortos, dominios alejados de aquellos en los que Ghostbuster entrenó (por ejemplo, diferentes variedades de inglés), texto de hablantes no nativos de inglés, generaciones de modelos editados por humanos o texto generado solicitando a un modelo de IA que modifique una entrada de autor humano. Para evitar perpetuar los daños algorítmicos, desaconsejamos penalizar automáticamente el supuesto uso de generación de texto sin supervisión humana. En su lugar, recomendamos el uso cauteloso y humano de Ghostbuster si clasificar la escritura de alguien como generada por IA podría dañarlo. Ghostbuster también puede ayudar con una variedad de aplicaciones de menor riesgo, incluido el filtrado de texto generado por IA a partir de datos de entrenamiento del modelo de lenguaje y la verificación de si las fuentes de información en línea están generadas por IA.

Conclusión

Ghostbuster es un modelo de detección de texto generado por IA de última generación, con un rendimiento de 99.0 F1 en los dominios probados, lo que representa un progreso sustancial con respecto a los modelos existentes. Se generaliza bien a diferentes dominios, indicaciones y modelos, y es adecuado para identificar texto de modelos desconocidos o de caja negra porque no requiere acceso a probabilidades del modelo específico utilizado para generar el documento.

Las direcciones futuras para Ghostbuster incluyen proporcionar explicaciones para las decisiones de los modelos y mejorar la solidez de los ataques que intentan engañar específicamente a los detectores. Los enfoques de detección de texto generados por IA también se pueden utilizar junto con alternativas como marca de agua. También esperamos que Ghostbuster pueda ayudar en una variedad de aplicaciones, como filtrar datos de entrenamiento de modelos de lenguaje o marcar contenido generado por IA en la net.

Prueba Cazafantasmas aquí: cazafantasmas.aplicación

Obtenga más información sobre Cazafantasmas aquí: [ paper ] [ code ]

Intente adivinar si el texto es generado por IA usted mismo aquí: Ghostbuster.app/experimento


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles