Una organización OpenAI se asocia con frecuencia para investigar las capacidades de sus modelos de IA y evaluarlos por seguridad, METR, sugiere que no se le dio mucho tiempo para probar uno de los nuevos lanzamientos altamente capaces de la compañía, O3.
En una publicación de weblog publicada el miércolesMETR escribe que un punto de referencia de equipo rojo de O3 se “realizó en un tiempo relativamente corto” en comparación con las pruebas de la organización de un modelo insignia de Operai anterior, O1. Esto es significativo, dicen, porque el tiempo de prueba adicional puede conducir a resultados más completos.
“Esta evaluación se realizó en un tiempo relativamente corto, y solo probamos [o3] con andamios de agente easy “, escribió METR en su publicación de weblog.” Esperamos un mayor rendimiento [on benchmarks] es posible con más esfuerzo de obtención “.
Informes recientes sugieren que OpenAi, estimulado por la presión competitiva, está apresurando evaluaciones independientes. Según el Monetary InstancesOperai dio a algunos evaluadores menos de una semana por controles de seguridad para un próximo lanzamiento importante.
En las declaraciones, OpenAi ha disputado la noción de que se compromete a la seguridad.
Metr cube que, según la información que pudo obtener en el tiempo que tenía, O3 tiene una “alta propensión” a “engañar” o “piratear” las pruebas sofisticadas para maximizar su puntaje, incluso cuando el modelo comprende claramente su comportamiento está desalineado con las intenciones del usuario (y OpenAI). La organización cree que es posible que O3 se involucre en otros tipos de comportamiento adversario o “maligna”, independientemente de las afirmaciones del modelo de estar alineados, “seguros por diseño” o no tienen ninguna intención propia.
“Si bien no creemos que esto sea especialmente possible, parece importante tener en cuenta que [our] La configuración de la evaluación no captaría este tipo de riesgo “, escribió Metr en su publicación.” En basic, creemos que las pruebas de capacidad previa al despliegue no son una estrategia de gestión de riesgos suficiente por sí misma, y actualmente estamos creando formas adicionales de evaluaciones “.
Otro de los socios de evaluación de terceros de OpenAI, Apollo Analysis, también observó un comportamiento engañoso de O3 y el otro nuevo modelo de la compañía, O4-Mini. En una prueba, los modelos, dados 100 créditos informáticos para una ejecución de capacitación de IA y se les dijo que no modifique la cuota, aumentaron el límite a 500 créditos, y mintió al respecto. En otra prueba, se le pidió que prometiera no usar una herramienta específica, los modelos usaron la herramienta de todos modos cuando demostró ser útil para completar una tarea.
En su Informe de seguridad propio Para O3 y O4-Mini, OpenAI reconoció que los modelos pueden causar “daños más pequeños del mundo actual”, como engañar por un error que resulta en un código defectuoso, sin los protocolos de monitoreo adecuados en su lugar.
“[Apollo’s] Las hallazgos muestran que O3 y O4-Mini son capaces de esquemas en contexto y engaño estratégico “, escribió Openai.” Si bien es relativamente inofensivo, es importante que los usuarios cotidianos sean conscientes de estas discrepancias entre las declaraciones y acciones de los modelos […] Esto puede evaluarse más a fondo mediante la evaluación de trazados de razonamiento interno “.