En el mundo precise impulsado por los datos, garantizar la seguridad y la privacidad de los modelos de aprendizaje automático es imprescindible, ya que descuidar estos aspectos puede resultar en fuertes multas, violaciones de datos, rescates a grupos de piratas informáticos y una pérdida significativa de reputación entre clientes y socios. DataRobot ofrece soluciones sólidas para proteger contra los 10 principales riesgos identificados por The Open Worldwide Software Safety Undertaking (OWASP), incluidas vulnerabilidades de seguridad y privacidad. Ya sea que esté trabajando con modelos personalizados, usando el área de juegos de DataRobot o ambos, esto Guía de protección de 7 pasos Le explicará cómo configurar un sistema de moderación eficaz para su organización.
Paso 1: acceda a la biblioteca de moderación
Comience abriendo la biblioteca de guardias de DataRobot, donde puede seleccionar varios guardias para proteger sus modelos. Estos protectores pueden ayudar a prevenir varios problemas, como por ejemplo:
- Fuga de información de identificación private (PII)
- Inyección inmediata
- Contenido dañino
- Alucinaciones (usando Rouge-1 y Constancy)
- Discusión de la competencia.
- Temas no autorizados
Paso 2: utilice barandillas personalizadas y avanzadas
DataRobot no solo viene equipado con protecciones integradas, sino que también brinda la flexibilidad de utilizar cualquier modelo personalizado como protección, incluidos modelos de lenguaje grande (LLM), binarios, de regresión y de clases múltiples. Esto le permite adaptar el sistema de moderación a sus necesidades específicas. Además, puede emplear rieles de autoverificación de entrada y salida ‘NVIDIA NeMo’ de última generación para garantizar que los modelos se mantengan enfocados en el tema, eviten palabras bloqueadas y manejen las conversaciones de una manera predefinida. Ya sea que elija las sólidas opciones integradas o decida integrar sus propias soluciones personalizadas, DataRobot respalda sus esfuerzos por mantener altos estándares de seguridad y eficiencia.

Paso 3: configura tus guardias
Configuración de la protección de implementación de evaluación
- Elija la entidad a la que aplicarlo (mensaje o respuesta).
- Implemente modelos globales desde el Registro de DataRobot o utilice el suyo propio.
- Establezca el umbral de moderación para determinar el rigor de la guardia.



Configuración de barandillas de NeMo
- Proporcione su clave OpenAI.
- Utilice archivos precargados o personalícelos agregando términos bloqueados. Configure el mensaje del sistema para determinar temas bloqueados o permitidos, criterios de moderación y más.

Paso 4: definir la lógica de moderación
Elija un método de moderación:
- Informe: Realice un seguimiento y notifique a los administradores si no se cumplen los criterios de moderación.
- Bloquear: Bloquee el mensaje o la respuesta si no cumple con los criterios, mostrando un mensaje personalizado en lugar de la respuesta de LLM.

De forma predeterminada, la moderación funciona de la siguiente manera:
- En primer lugar, las indicaciones se evalúan utilizando protecciones configuradas en paralelo para reducir la latencia.
- Si un mensaje no pasa la evaluación por parte de algún guardia “bloqueador”, no se envía al LLM, lo que cut back los costos y mejora la seguridad.
- Las indicaciones que superaron los criterios se califican mediante LLM y luego se evalúan las respuestas.
- Si la respuesta falla, los usuarios ven un mensaje predefinido creado por el cliente en lugar de la respuesta LLM sin formato.

Paso 5: probar e implementar
Antes de publicarlo, pruebe minuciosamente la lógica de moderación. Una vez satisfecho, regístrese e implemente su modelo. Luego puedes integrarlo en varias aplicaciones, como una aplicación de preguntas y respuestas, una aplicación personalizada o incluso un Slackbot, para ver la moderación en acción.

Paso 6: monitorear y auditar
Realice un seguimiento del rendimiento del sistema de moderación con métricas personalizadas generadas automáticamente. Estas métricas proporcionan información sobre:
- La cantidad de indicaciones y respuestas bloqueadas por cada guardia.
- La latencia de cada fase de moderación y guardia.
- Las puntuaciones medias de cada guardia y fase, como fidelidad y toxicidad.

Además, todas las actividades moderadas se registran, lo que le permite auditar la actividad de la aplicación y la eficacia del sistema de moderación.
Paso 7: implementar un circuito de retroalimentación humana
Además del seguimiento y el registro automatizados, establecer un circuito de retroalimentación humana es essential para perfeccionar la eficacia de su sistema de moderación. Este paso implica revisar periódicamente los resultados del proceso de moderación y las decisiones tomadas por los guardias automatizados. Al incorporar comentarios de usuarios y administradores, puede mejorar continuamente la precisión y la capacidad de respuesta del modelo. Este enfoque humano garantiza que el sistema de moderación se adapte a los nuevos desafíos y evolucione de acuerdo con las expectativas de los usuarios y los estándares cambiantes, mejorando aún más la confiabilidad y confiabilidad de sus aplicaciones de IA.
from datarobot.fashions.deployment import CustomMetric
custom_metric = CustomMetric.get(
deployment_id="5c939e08962d741e34f609f0", custom_metric_id="65f17bdcd2d66683cdfc1113")
information = [{'value': 12, 'sample_size': 3, 'timestamp': '2024-03-15T18:00:00'},
{'value': 11, 'sample_size': 5, 'timestamp': '2024-03-15T17:00:00'},
{'value': 14, 'sample_size': 3, 'timestamp': '2024-03-15T16:00:00'}]
custom_metric.submit_values(information=information)
# information witch affiliation IDs
information = [{'value': 15, 'sample_size': 2, 'timestamp': '2024-03-15T21:00:00', 'association_id': '65f44d04dbe192b552e752aa'},
{'value': 13, 'sample_size': 6, 'timestamp': '2024-03-15T20:00:00', 'association_id': '65f44d04dbe192b552e753bb'},
{'value': 17, 'sample_size': 2, 'timestamp': '2024-03-15T19:00:00', 'association_id': '65f44d04dbe192b552e754cc'}]
custom_metric.submit_values(information=information)
Conclusiones finales
Proteger sus modelos con las completas herramientas de moderación de DataRobot no solo mejora la seguridad y la privacidad, sino que también garantiza que sus implementaciones funcionen sin problemas y de manera eficiente. Al utilizar las protecciones avanzadas y las opciones de personalización que se ofrecen, puede adaptar su sistema de moderación para satisfacer necesidades y desafíos específicos.

Las herramientas de monitoreo y las auditorías detalladas le permiten mantener el management sobre el rendimiento de su aplicación y las interacciones del usuario. En última instancia, al integrar estas sólidas estrategias de moderación, no solo protege sus modelos, sino que también mantiene la confianza y la integridad de sus soluciones de aprendizaje automático, allanando el camino para aplicaciones de IA más seguras y confiables.
Sobre el autor

Aslihan Buner es gerente senior de advertising and marketing de productos para AI Observability en DataRobot, donde crea y ejecuta estrategias de comercialización para productos LLMOps y MLOps. Se asocia con equipos de desarrollo y gestión de productos para identificar las necesidades clave de los clientes e identificar e implementar estratégicamente mensajes y posicionamiento. Su pasión es abordar las brechas del mercado, abordar los puntos débiles en todos los sectores verticales y vincularlos a las soluciones.

Kateryna Bozhenko es gerente de producto de producción de IA en DataRobot y tiene una amplia experiencia en la creación de soluciones de IA. Con títulos en Negocios Internacionales y Administración de Atención Médica, le apasiona ayudar a los usuarios a hacer que los modelos de IA funcionen de manera efectiva para maximizar el retorno de la inversión y experimentar la verdadera magia de la innovación.