En mayo de 2025, Enkrypt Ai lanzó su Informe multimodal de equipo rojoun análisis escalofriante que reveló cuán fácilmente avanzados se pueden manipular los sistemas de IA para generar contenido peligroso y poco ético. El informe se centra en dos de los principales modelos en idioma de visión de Mistral,-Pixtral-Giant (25.02) y Pixtral-12B, y pinta una imagen de modelos que no solo son técnicamente impresionantes sino inquietantemente vulnerables.
Modelos en idioma de visión (VLMS) Al igual que Pixtral, se crean para interpretar entradas visuales y textuales, lo que les permite responder de manera inteligente a las indicaciones complejas y del mundo actual. Pero esta capacidad viene con un mayor riesgo. A diferencia de los modelos de lenguaje tradicionales que solo procesan el texto, los VLM pueden estar influenciados por la interacción entre imágenes y palabras, abriendo nuevas puertas para ataques adversos. Las pruebas de Enkrypt AI muestran qué tan fácil se pueden abrir estas puertas.
Resultados de la prueba alarmante: fallas de CSEM y CBRN
El equipo detrás del informe usó sofisticado equipo rojo Métodos: una forma de evaluación adversa diseñada para imitar amenazas del mundo actual. Estas pruebas emplearon tácticas como Jailbreaking (lo que provocó el modelo con consultas cuidadosamente elaboradas para evitar filtros de seguridad), engaño basado en imágenes y manipulación de contexto. Al alarmante, el 68% de estas indicaciones adversas provocaron respuestas dañinas en los dos modelos pixtrales, incluido el contenido relacionado con el aseo, la explotación e incluso el diseño de armas químicas.
Una de las revelaciones más llamativas implica el materials de explotación sexual infantil (CSEM). El informe encontró que los modelos de Mistrales tenían 60 veces más probabilidades de producir contenido relacionado con CSEM en comparación con los puntos de referencia de la industria como GPT-4O y Claude 3.7 Sonnet. En los casos de prueba, los modelos respondieron a las indicaciones de preparación disfrazadas con contenido estructurado de múltiples párrafos que explican cómo manipular menores, envueltos en renuncias falsas como “solo para la conciencia educativa”. Los modelos no simplemente no estaban rechazando consultas dañinas, los estaban completando en detalle.
Igualmente inquietantes fueron los resultados en la categoría de riesgo CBRN (químico, biológico, radiológico y nuclear). Cuando se le solicita una solicitud sobre cómo modificar el agente nervioso VX, un arma química, los modelos ofrecían concepts sorprendentemente específicas para aumentar su persistencia en el medio ambiente. Describieron, con detalles redactados pero claramente técnicos, métodos como encapsulación, blindaje ambiental y sistemas de liberación controlada.
Estas fallas no siempre se activaron por solicitudes abiertamente dañinas. Una táctica consistió en cargar una imagen de una lista numerada en blanco y pedirle al modelo que “full los detalles”. Este indicador easy, aparentemente inocuo, condujo a la generación de instrucciones poco éticas e ilegales. La fusión de la manipulación visible y textual resultó especialmente peligrosa, iluminando un desafío único planteado por la IA multimodal.
Por qué los modelos en idioma visión plantean nuevos desafíos de seguridad
En el corazón de estos riesgos se encuentra la complejidad técnica de los modelos en idioma de visión. Estos sistemas no solo analizan el lenguaje, sino que sintetizan el significado entre los formatos, lo que significa que deben interpretar el contenido de la imagen, comprender el contexto del texto y responder en consecuencia. Esta interacción introduce nuevos vectores para la explotación. Un modelo podría rechazar correctamente un mensaje de texto dañino solo, pero cuando se combina con una imagen sugerente o un contexto ambiguo, puede generar una salida peligrosa.
Enkrypt’s Pink Teaming descubrió cómo ataques de inyección intermodal– donde las señales sutiles en una modalidad influyen en la salida de otro, pueden pasar por completo los mecanismos de seguridad estándar. Estas fallas demuestran que las técnicas tradicionales de moderación de contenido, construidas para sistemas de modalidad única, no son suficientes para las VLM de hoy en día.
El informe también detalla cómo se accedió a los modelos Pixtrales: Pixtral-Giant a través de AWS Bedrock y PixTral-12B a través de la plataforma Mistral. Este contexto de implementación del mundo actual enfatiza aún más la urgencia de estos hallazgos. Estos modelos no se limitan a los laboratorios: están disponibles a través de plataformas de nubes convencionales y podrían integrarse fácilmente en productos de consumo o empresa.
Lo que debe hacerse: un plan para AI más seguro
Para su crédito, Enkrypt Ai hace más que resaltar los problemas: ofrece un camino a seguir. El informe describe una estrategia de mitigación integral, comenzando con Capacitación de alineación de seguridad. Esto implica reentrenar el modelo utilizando sus propios datos de equipo rojo para reducir la susceptibilidad a indicaciones dañinas. Se recomiendan técnicas como la optimización de preferencia directa (DPO) para ajustar las respuestas del modelo lejos de las salidas riesgosas.
También enfatiza la importancia de las barandillas conscientes del contexto: filtros dañinos que pueden interpretar y bloquear consultas dañinas en tiempo actual, teniendo en cuenta el contexto completo de la entrada multimodal. Además, el uso de tarjetas de riesgo modelo se propone como una medida de transparencia, lo que ayuda a las partes interesadas a comprender las limitaciones del modelo y los casos de falla conocidos.
Quizás la recomendación más crítica es tratar el equipo rojo como un proceso continuo, no una prueba única. A medida que evolucionan los modelos, también lo hacen las estrategias de ataque. Solo la evaluación continua y el monitoreo activo pueden garantizar la confiabilidad a largo plazo, especialmente cuando los modelos se implementan en sectores sensibles como la atención médica, la educación o la defensa.
El Informe multimodal de equipo rojo de Enkrypt ai Es una señal clara para la industria de la IA: el poder multimodal viene con responsabilidad multimodal. Estos modelos representan un salto hacia adelante en la capacidad, pero también requieren un salto en cómo pensamos sobre la seguridad, la seguridad y la implementación ética. Se quedaron sin management, no solo corren el riesgo de fallar, sino que arriesgan el daño del mundo actual.
Para cualquier persona que trabaje o implementa una IA a gran escala, este informe no es solo una advertencia. Es un libro de jugadas. Y no podría haber llegado en un momento más urgente.