25.3 C
Colombia
lunes, julio 7, 2025

El nuevo método permite que Deepseek y otros modelos respondan preguntas ‘confidenciales’


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Es difícil eliminar el sesgo y, en algunos casos, la censura directa, en modelos de idiomas grandes (LLM). Uno de esos modelos, Veterano de China, Políticos alarmados y algunos líderes empresariales sobre su peligro potencial para la seguridad nacional.

Un comité selecto en el Congreso de los Estados Unidos recientemente publicó un informe Llamada Deepseek, “una profunda amenaza para la seguridad de nuestra nación” y recomendaciones de políticas detalladas.

Si bien hay formas de evitar el sesgo a través del aprendizaje de refuerzo de la retroalimentación humana (RLHF) y el ajuste, el inicio de la gestión de riesgos empresariales CTGT afirma tener un enfoque alternativo. CTGT desarrolló un método que evita el sesgo y la censura horneados en algunos modelos de idiomas que cube que el 100% elimina la censura.

En papelCyril Gorlla y Trevor Tuttle de CTGT dijeron que su marco “localiza y modifica directamente las características internas responsables de la censura”.

“Este enfoque no solo es computacionalmente eficiente, sino que también permite un management de grano fino sobre el comportamiento del modelo, lo que garantiza que las respuestas sin censura se entreguen sin comprometer las capacidades generales del modelo y la precisión objetiva”, dijo el documento.

Si bien el método se desarrolló explícitamente con Deepseek-R1-Distill-Llama-70b en mente, el mismo proceso puede usarse en otros modelos.

“Hemos probado CTGT con otros modelos de pesas abiertas como Llama y descubrió que es igual de efectivo”, dijo Gorlla a VentureBeat en un correo electrónico. “Nuestra tecnología funciona a nivel de crimson neuronal basic, lo que significa que se aplica a todos los modelos de aprendizaje profundo. Estamos trabajando con un laboratorio de modelos de base líder para garantizar que sus nuevos modelos sean confiables y seguros del núcleo”.

Cómo funciona

Los investigadores dijeron que su método identifica características con una alta probabilidad de asociarse con comportamientos no deseados.

“La thought clave es que dentro de un modelo de lenguaje grande, existen variables latentes (neuronas o direcciones en el estado oculto) que corresponden a conceptos como ‘desencadenante de censura’ o ‘sentimiento tóxico’. Si podemos encontrar esas variables, podemos manipularlos directamente”, escribieron Gorlla y Tuttle.

CTGT dijo que hay tres pasos clave:

  1. Identificación de características
  2. Aislamiento y caracterización de características
  3. Modificación de características dinámicas.

Los investigadores hacen una serie de indicaciones que podrían desencadenar uno de esos “sentimientos tóxicos”. Por ejemplo, pueden solicitar más información sobre Tiananmen Sq. o solicitar consejos para evitar los firewalls. Según las respuestas, ejecutan las indicaciones y establecen un patrón y encuentran vectores donde el modelo resolve censurar la información.

Una vez que se identifican, los investigadores pueden aislar esa característica y descubrir qué parte del comportamiento no deseado controla. El comportamiento puede incluir responder con más cautela o negarse a responder por completo. Entendiendo qué comportamiento controla la función, los investigadores pueden “integrar un mecanismo en la tubería de inferencia del modelo” que ajusta cuánto se activa el comportamiento de la característica.

Hacer que el modelo responda más indicaciones

CTGT dijo que sus experimentos, utilizando 100 consultas sensibles, mostraron que el modelo Base Deepseek-R1-Distill-Llama-70B respondió solo al 32% de las controvertidas indicaciones que fue alimentada. Pero la versión modificada respondió al 96% de las indicaciones. El 4percentrestante, explicó CTGT, eran contenido extremadamente explícito.

La compañía dijo que si bien el método permite a los usuarios alternar cuánto funcionan el sesgo y las características de seguridad horneadas, todavía cree que el modelo no se convertirá en “en un generador imprudente”, especialmente si solo se elimina la censura innecesaria.

Su método tampoco sacrifica la precisión o rendimiento del modelo.

“Esto es fundamentalmente diferente del ajuste fino tradicional, ya que no estamos optimizando los pesos del modelo o alimentándole las nuevas respuestas de ejemplo. Esto tiene dos ventajas principales: los cambios entren en efecto inmediatamente para la siguiente generación de token, a diferencia de las horas o días de reversibilidad y la adaptación y la adaptación, ya que no se han cambiado los pesos permanentemente, el modelo puede cambiarse entre diferentes comportamientos mediante el retiro de los ajustes o fuera, o fuera, o off, o fuera, o de baja, o no, los pesos se cambian, el modelo se puede cambiar entre diferentes comportamientos mediante el retiro de los ajustes o fuera, o off, off, off, o off, off, o off, o no se cambian los pesos. contextos ”, dijo el periódico.

Seguridad y seguridad del modelo

El informe del Congreso sobre Deepseek recomendó que Estados Unidos “tome medidas rápidas para expandir los controles de exportación, mejorar la aplicación del management de exportaciones y abordar los riesgos de los modelos de inteligencia synthetic china”.

Una vez que el gobierno de los Estados Unidos comenzó a cuestionar la amenaza potencial de Deepseek para la seguridad nacional, los investigadores y las compañías de IA buscaron formas de hacerlo y otros modelos “seguros”.

Lo que es o no “seguro”, o sesgado o censurado, a veces puede ser difícil de juzgar, pero desarrollar métodos que permitan a los usuarios descubrir cómo alternar los controles para que el modelo funcione para ellos podría resultar muy útil.

Gorlla dijo que las empresas “necesitan poder Confía en sus modelos están alineados con sus políticas “, por eso métodos como el que ayudó a desarrollar sería crítico para las empresas.

“CTGT permite a las empresas implementar AI que se adapte a sus casos de uso sin tener que gastar millones de dólares en modelos de ajuste fino para cada caso de uso. Esto es particularmente importante en aplicaciones de alto riesgo como seguridad, finanzas y atención médica, donde los posibles daños que pueden provenir de la mal funcionamiento de la IA son severos”, dijo.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles