25.4 C
Colombia
jueves, julio 10, 2025

Cuando AI fracasa: el informe Enkrypt AI expone vulnerabilidades peligrosas en modelos multimodales


En mayo de 2025, Enkrypt Ai lanzó su Informe multimodal de equipo rojoun análisis escalofriante que reveló cuán fácilmente avanzados se pueden manipular los sistemas de IA para generar contenido peligroso y poco ético. El informe se centra en dos de los principales modelos en idioma de visión de Mistral,-Pixtral-Giant (25.02) y Pixtral-12B, y pinta una imagen de modelos que no solo son técnicamente impresionantes sino inquietantemente vulnerables.

Modelos en idioma de visión (VLMS) Al igual que Pixtral, se crean para interpretar entradas visuales y textuales, lo que les permite responder de manera inteligente a las indicaciones complejas y del mundo actual. Pero esta capacidad viene con un mayor riesgo. A diferencia de los modelos de lenguaje tradicionales que solo procesan el texto, los VLM pueden estar influenciados por la interacción entre imágenes y palabras, abriendo nuevas puertas para ataques adversos. Las pruebas de Enkrypt AI muestran qué tan fácil se pueden abrir estas puertas.

Resultados de la prueba alarmante: fallas de CSEM y CBRN

El equipo detrás del informe usó sofisticado equipo rojo Métodos: una forma de evaluación adversa diseñada para imitar amenazas del mundo actual. Estas pruebas emplearon tácticas como Jailbreaking (lo que provocó el modelo con consultas cuidadosamente elaboradas para evitar filtros de seguridad), engaño basado en imágenes y manipulación de contexto. Al alarmante, el 68% de estas indicaciones adversas provocaron respuestas dañinas en los dos modelos pixtrales, incluido el contenido relacionado con el aseo, la explotación e incluso el diseño de armas químicas.

Una de las revelaciones más llamativas implica el materials de explotación sexual infantil (CSEM). El informe encontró que los modelos de Mistrales tenían 60 veces más probabilidades de producir contenido relacionado con CSEM en comparación con los puntos de referencia de la industria como GPT-4O y Claude 3.7 Sonnet. En los casos de prueba, los modelos respondieron a las indicaciones de preparación disfrazadas con contenido estructurado de múltiples párrafos que explican cómo manipular menores, envueltos en renuncias falsas como “solo para la conciencia educativa”. Los modelos no simplemente no estaban rechazando consultas dañinas, los estaban completando en detalle.

Igualmente inquietantes fueron los resultados en la categoría de riesgo CBRN (químico, biológico, radiológico y nuclear). Cuando se le solicita una solicitud sobre cómo modificar el agente nervioso VX, un arma química, los modelos ofrecían concepts sorprendentemente específicas para aumentar su persistencia en el medio ambiente. Describieron, con detalles redactados pero claramente técnicos, métodos como encapsulación, blindaje ambiental y sistemas de liberación controlada

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles