24.8 C
Colombia
lunes, julio 7, 2025

Cómo OpenAI pone a prueba sus grandes modelos de lenguaje


Cuando OpenAI probó DALL-E 3 el año pasado, utilizó un proceso automatizado para cubrir aún más variaciones de lo que los usuarios podrían pedir. Utilizó GPT-4 para generar solicitudes que produjeran imágenes que podrían usarse para desinformar o que representaran sexo, violencia o autolesiones. Luego, OpenAI actualizó DALL-E 3 para que rechazara dichas solicitudes o las reescribiera antes de generar una imagen. Si pide un caballo con salsa de tomate ahora, DALL-E será sabio con usted: “Parece que existen desafíos para generar la imagen. ¿Le gustaría que probara una solicitud diferente o explorara otra thought?

En teoría, los equipos rojos automatizados se pueden utilizar para cubrir más terreno, pero las técnicas anteriores tenían dos deficiencias importantes: tendían a centrarse en una gama estrecha de comportamientos de alto riesgo o idear una amplia gama de comportamientos de bajo riesgo. Esto se debe a que el aprendizaje por refuerzo, la tecnología detrás de estas técnicas, necesita algo a lo que aspirar (una recompensa) para funcionar bien. Una vez que ha obtenido una recompensa, como encontrar un comportamiento de alto riesgo, seguirá intentando hacer lo mismo una y otra vez. Sin recompensa, por otra parte, los resultados son dispersos.

“En cierto modo colapsan y dicen ‘¡Encontramos algo que funciona!’ ¡Seguiremos dando esa respuesta!’ o darán muchos ejemplos que son realmente obvios”, cube Alex Beutel, otro investigador de OpenAI. “¿Cómo conseguimos ejemplos que sean a la vez diversos y eficaces?”

Un problema de dos partes

La respuesta de OpenAI, descrita en el segundo artículo, es dividir el problema en dos partes. En lugar de utilizar el aprendizaje por refuerzo desde el principio, primero utiliza un modelo de lenguaje grande para generar concepts sobre posibles comportamientos no deseados. Sólo entonces dirige un modelo de aprendizaje por refuerzo para descubrir cómo generar esos comportamientos. Esto le da al modelo una amplia gama de cosas específicas a las que apuntar.

Beutel y sus colegas demostraron que este enfoque puede encontrar ataques potenciales conocidos como inyecciones indirectas, donde otra pieza de software program, como un sitio net, desliza a un modelo una instrucción secreta para obligarlo a hacer algo que su usuario no le había pedido. OpenAI afirma que esta es la primera vez que se utiliza el equipo rojo automatizado para encontrar ataques de este tipo. “No necesariamente parecen cosas flagrantemente malas”, cube Beutel.

¿Serán suficientes algún día estos procedimientos de prueba? Ahmad espera que describir el enfoque de la empresa ayude a las personas a comprender mejor los equipos rojos y a seguir su ejemplo. “OpenAI no debería ser el único que crea equipos rojos”, afirma. Las personas que se basan en los modelos de OpenAI o que usan ChatGPT de nuevas maneras deberían realizar sus propias pruebas, cube: “Hay tantos usos que no vamos a cubrir todos”.

Para algunos, ese es todo el problema. Debido a que nadie sabe exactamente qué pueden y qué no pueden hacer los grandes modelos de lenguaje, ninguna cantidad de pruebas puede descartar por completo comportamientos no deseados o dañinos. Y ninguna crimson de equipos rojos podrá jamás igualar la variedad de usos y abusos que se les ocurrirán a cientos de millones de usuarios reales.

Esto es especialmente cierto cuando estos modelos se ejecutan en entornos nuevos. La gente suele conectarlos a nuevas fuentes de datos que pueden cambiar su comportamiento, cube Nazneen Rajani, fundadora y directora ejecutiva de Collinear AI, una startup que ayuda a las empresas a implementar modelos de terceros de forma segura. Está de acuerdo con Ahmad en que los usuarios intermedios deberían tener acceso a herramientas que les permitan probar ellos mismos grandes modelos de lenguaje.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles