25.4 C
Colombia
lunes, julio 7, 2025

Deepseek presenta una nueva técnica para modelos de recompensa de IA más inteligentes y escalables


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Deepseek aiun laboratorio de investigación chino que obtiene reconocimiento por sus poderosos modelos de lenguaje de código abierto como Deepseek-R1, ha introducido un avance significativo en el modelado de recompensas para modelos de idiomas grandes (LLM).

Su nueva técnica, la sintonización de críticas autoinscribidas (SPCT), tiene como objetivo crear modelos de recompensa generalistas y escalables (RMS). Esto podría conducir a aplicaciones de IA más capaces para tareas y dominios abiertos donde los modelos actuales no pueden capturar los matices y complejidades de su entorno y usuarios.

El papel essential y los límites actuales de los modelos de recompensa

El aprendizaje de refuerzo (RL) se ha convertido en una piedra angular en el desarrollo de LLM de última generación. En RL, los modelos se ajustan en función de las señales de retroalimentación que indican la calidad de sus respuestas.

Los modelos de recompensa son el componente crítico que proporciona estas señales. Esencialmente, un RM actúa como juez, evalúa los resultados de LLM y asigna una puntuación o “recompensa” que guía el proceso RL y enseña a la LLM a producir respuestas más útiles.

Sin embargo, los RM actuales a menudo enfrentan limitaciones. Por lo normal, se destacan en dominios estrechos con reglas claras o respuestas fácilmente verificables. Por ejemplo, los modelos de razonamiento de estado de estado actuales como Deepseek-r1 se sometió a una fase RLen el que fueron entrenados en problemas de matemáticas y codificación donde la verdad del suelo está claramente definida.

Sin embargo, crear un modelo de recompensa para consultas complejas, abiertas o subjetivas en dominios generales sigue siendo un obstáculo importante. En el papel Explicando su nueva técnica, los investigadores de Deepseek AI escriben: “Generalist RM requiere generar recompensas de alta calidad más allá de dominios específicos, donde los criterios de recompensas son más diversos y complejos, y a menudo no hay referencia explícita o verdad terrestre”.

Destacan cuatro desafíos clave para crear RMS generalistas capaces de manejar tareas más amplias:

  1. Flexibilidad de entrada: El RM debe manejar varios tipos de entrada y poder evaluar una o más respuestas simultáneamente.
  2. Exactitud: Debe generar señales de recompensa precisas en diversos dominios donde los criterios son complejos y la verdad del suelo a menudo no está disponible.
  3. Escalabilidad de tiempo de inferencia: El RM debe producir recompensas de mayor calidad cuando se asignan más recursos computacionales durante la inferencia.
  4. Aprender comportamientos escalables: Para que los RMS se escalen de manera efectiva en el momento de la inferencia, necesitan aprender comportamientos que permitan un rendimiento mejorado a medida que se usa más cálculo.
Diferentes tipos de modelos de recompensa
Diferentes tipos de modelos de recompensa Crédito: ARXIV

Los modelos de recompensa pueden clasificarse ampliamente por su “paradigma de generación de recompensas” (por ejemplo, RMS escalar que generan una sola puntuación, RM generativos que producen críticas textuales) y su “patrón de puntuación” (por ejemplo, la puntuación puntiaguda asigna puntajes individuales a cada respuesta, el parque selecciona la mejor de dos respuestas). Estas opciones de diseño afectan la idoneidad del modelo para tareas generalistas, particularmente su flexibilidad de entrada y potencial para escala de tiempo de inferencia.

Por ejemplo, la RMS escalar easy lucha con la escala de tiempo de inferencia porque generarán la misma puntuación repetidamente, mientras que los RM por pares no pueden calificar fácilmente las respuestas individuales.

Los investigadores proponen que el “modelado de recompensa generativo puntual” (GRM), donde el modelo genera críticas textuales y obtiene puntajes de ellos, puede ofrecer la flexibilidad y la escalabilidad requerida para los requisitos generalistas.

El equipo de Deepseek realizó experimentos preliminares sobre modelos como GPT-4O y Gemma-2-27B, y descubrió que “ciertos principios podrían guiar la generación de recompensas dentro de los criterios adecuados para los GRM, mejorando la calidad de las recompensas, lo que nos inspiró a la escalabilidad de inferencia de RM al escalar la generación de principios de alta calidad y las críticas de Accures”.

Capacitar a RMS para generar sus propios principios

Basado en estos hallazgos, los investigadores desarrollaron una sintonización de crítica autoinscribida (SPCT), que entrena el GRM para generar principios y críticas basadas en consultas y respuestas dinámicamente.

Los investigadores proponen que los principios deben ser una “parte de la generación de recompensas en lugar de un paso de preprocesamiento”. De esta manera, el GRMS podría generar principios sobre la mosca en función de la tarea que están evaluando y luego generar críticas basadas en los principios.

“Este cambio habilita [the] Los principios a generar en función de la consulta de entrada y las respuestas, alineando adaptativamente [the] El proceso de generación de recompensas, y la calidad y la granularidad de los principios y las críticas correspondientes podrían mejorarse aún más con el post-entrenamiento en el GRM ”, escriben los investigadores.

SPCT
Crédito de sintonización de crítica autoinserligente (SPCT): ARXIV

SPCT implica dos fases principales:

  1. Rechazamiento de fino: Esta fase entrena al GRM para generar principios y críticas para varios tipos de entrada utilizando el formato correcto. El modelo genera principios, críticas y recompensas para consultas/respuestas dadas. Las trayectorias (intentos de generación) se aceptan solo si la recompensa predicha se alinea con la verdad del suelo (identificando correctamente la mejor respuesta, por ejemplo) y se rechazó de otra manera. Este proceso se repite y el modelo está ajustado en los ejemplos filtrados para mejorar sus capacidades de generación de principios/críticos.
  2. RL basado en reglas: En esta fase, el modelo se ajusta aún más a través del aprendizaje de refuerzo basado en resultados. El GRM genera principios y críticas para cada consulta, y las señales de recompensa se calculan en base a reglas de precisión simples (por ejemplo, ¿eligió la mejor respuesta conocida?). Entonces el modelo se actualiza. Esto alienta al GRM a aprender a generar principios efectivos y críticas precisas dinámicamente y de manera escalable.

“Al aprovechar RL en línea basada en reglas, SPCT permite a GRMS aprender a plantear adaptativamente los principios y las críticas basadas en la consulta y las respuestas de entrada, lo que lleva a mejores recompensas de resultados en los dominios generales”, escriben los investigadores.

Para abordar el desafío de escala de tiempo de inferencia (obtener mejores resultados con más cálculo), los investigadores ejecutan el GRM varias veces para la misma entrada, generando diferentes conjuntos de principios y críticas. La recompensa remaining se determina votando (agregando los puntajes de la muestra). Esto permite que el modelo considere una gama más amplia de perspectivas, lo que lleva a juicios finales potencialmente más precisos y matizados, ya que está provisto de más recursos.

Sin embargo, algunos principios/críticas generados pueden ser de baja calidad o sesgados debido a las limitaciones o la aleatoriedad del modelo. Para abordar esto, los investigadores introdujeron un “meta RM ”: un RM escalar separado y ligero entrenado específicamente para predecir si un principio/crítica generado por el GRM primario probablemente conducirá a una recompensa remaining correcta.

Durante la inferencia, el Meta RM evalúa las muestras generadas y filtra los juicios de baja calidad antes de la votación remaining, mejorando aún más el rendimiento de escala.

Poner a SPCT en práctica con Deepseek-Grm

Los investigadores aplicaron SPCT a Gemma-2-27bModelo de peso abierto de Google, creando Deepseek-Grm-27b. Lo evaluaron con varios RMS de línea de base fuertes (incluidos LLM-AS-A-Choose, RMS escalar y RMS semi-escalares) y modelos públicos (como GPT-4O y Nemotron-4-340B-Reward) en múltiples puntos de referencia.

Descubrieron que Deepseek-GRM-27B superó a los métodos de referencia superiores a los mismos datos. SPCT mejoró significativamente la calidad y, de manera essential, la escalabilidad de la inferencia de tiempo en comparación con el ajuste fino estándar.

Deepseek-grm
El rendimiento de Deepseek-Grm (entrenado con SPCT) continúa mejorando con crédito de escala de tiempo de inferencia: ARXIV

Cuando se escala en el momento de la inferencia generando más muestras, el rendimiento de Deepseek-Grm-27b aumentó sustancialmente, superando incluso modelos mucho más grandes como Nemotron-4-340b-Reward y GPT-4O. El Meta RM mejoró aún más la escala, logrando los mejores resultados filtrando juicios.

“Con un muestreo a mayor escala, Deepseek-GRM podría juzgar con mayor precisión los principios con mayor diversidad, y las recompensas de producción con una granularidad más fina”, escriben los investigadores.

Curiosamente, SPCT mostró menos sesgo en diferentes dominios en comparación con los RMS escalares, que a menudo funcionaban bien en las tareas verificables pero mal en otros lugares.

Implicaciones para la empresa

El desarrollo de modelos de recompensas más generalistas y escalables puede ser prometedor para las aplicaciones empresariales de IA. Las áreas potenciales que pueden beneficiarse de los RM generalistas incluyen tareas creativas y aplicaciones donde el modelo debe adaptarse a entornos dinámicos como las preferencias en evolución del cliente.

A pesar de los fuertes resultados, Deepseek-Grm todavía se queda atrás de RMS escalar especializados en tareas puramente verificables donde la generación de razonamiento explícito podría ser menos eficiente que la puntuación directa. La eficiencia también sigue siendo un desafío en comparación con los RM no generativos.

El equipo de Deepseek sugiere que el trabajo futuro se centrará en mejoras de eficiencia e integración más profunda. Como concluyen, “las direcciones futuras podrían incluir la integración de GRM en las tuberías RL en línea como interfaces versátiles de los sistemas de recompensas, explorar co-escala de inferencia con modelos de políticas o servir como evaluadores fuera de línea robustos para los modelos fundamentales”.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles