34.7 C
Colombia
domingo, julio 6, 2025

Hugging Face muestra cómo la escala en el momento de la prueba ayuda a los modelos de lenguaje pequeños a superar su peso


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


En un nuevo estudio de caso, los investigadores de Hugging Face han demostrado cómo pequeños modelos de lenguaje (SLM) se pueden configurar para superar a modelos mucho más grandes. Sus hallazgos muestran que un modelo Llama 3 con parámetros 3B puede superar a la versión 70B del modelo en problemas matemáticos complejos.

Abrazar la cara tiene completamente documentado todo el proceso y proporciona una hoja de ruta para las empresas que desean crear sus propios modelos de razonamiento personalizados.

Fuente de la imagen: Cara abrazada

Escalar el cálculo en tiempo de prueba

La obra está inspirada en AbiertoAI o1que utiliza “pensamiento” adicional para resolver problemas complejos de matemáticas, codificación y razonamiento.

La thought clave detrás de modelos como o1 es escalar el “cómputo en el momento de la prueba”, lo que efectivamente significa usar más ciclos de cómputo durante la inferencia para probar y verificar diferentes respuestas y rutas de razonamiento antes de producir la respuesta remaining. Escalar el cálculo en tiempo de prueba es especialmente útil cuando no hay suficiente memoria para ejecutar un modelo grande.

Dado que o1 es un modelo privado y OpenAI se ha mantenido callado sobre su funcionamiento interno, los investigadores han estado especulando sobre cómo funciona y tratando de aplicar ingeniería inversa al proceso. ya son varios alternativas abiertas a o1.

El trabajo de Hugging Face se basa en una Estudio DeepMind publicado en agostoque investiga las compensaciones entre el tiempo de inferencia y el cálculo previo al entrenamiento. El estudio proporciona directrices completas sobre cómo equilibrar el entrenamiento y el cálculo de inferencia para obtener los mejores resultados con un presupuesto fijo.

Además de utilizar cálculos de tiempo de inferencia adicionales, el éxito de la técnica depende de dos componentes clave: un modelo de recompensa que evalúa las respuestas del SLM y un algoritmo de búsqueda que optimiza el camino que toma para refinar sus respuestas.

Fuente de la imagen: Cara abrazada

Diferentes algoritmos de razonamiento

La forma más sencilla de utilizar el escalado en el tiempo de prueba es la “votación mayoritaria”, en la que se envía el mismo mensaje al modelo varias veces y se elige el más votado. En problemas simples, la votación por mayoría puede resultar útil, pero sus ganancias se estancan rápidamente en problemas de razonamiento complejos o tareas donde los errores son consistentes a través de generaciones.

Un método de razonamiento más avanzado es “Lo mejor de N”. En esta técnica, el SLM genera múltiples respuestas, pero en lugar de una votación mayoritaria, se utiliza un modelo de recompensa para evaluar las respuestas y elegir la mejor. “Lo mejor ponderado de N”, una versión más matizada de este método, tiene en cuenta la coherencia para elegir respuestas que sean seguras y que ocurran con más frecuencia que otras.

Los investigadores utilizaron un “modelo de proceso de recompensa” (PRM) que califica la respuesta del SLM no solo en la respuesta remaining sino también en las múltiples etapas por las que pasa para alcanzarla. Sus experimentos demostraron que el mejor valor de N ponderado y los PRM trajeron la Llama-3.2 1B cerca del nivel de Llama-3.2 8B en el difícil punto de referencia MATH-500.

Fuente de la imagen: Cara abrazada

Para mejorar aún más el rendimiento del modelo, los investigadores agregaron algoritmos de búsqueda al proceso de razonamiento del modelo. En lugar de generar la respuesta en una sola pasada, utilizaron “búsqueda por haz”, un algoritmo que guía el proceso de respuesta del modelo paso a paso.

En cada paso, el SLM genera múltiples respuestas parciales. El algoritmo de búsqueda utiliza el modelo de recompensa para evaluar las respuestas y elige un subconjunto que vale la pena explorar más a fondo. El proceso se repite hasta que el modelo agota su presupuesto de inferencia o llega a la respuesta correcta. De esta manera, el presupuesto de inferencia se puede reducir para centrarse en las respuestas más prometedoras.

Los investigadores descubrieron que, si bien la búsqueda por haz mejora el rendimiento del modelo en problemas complejos, tiende a tener un rendimiento inferior a otras técnicas en problemas simples. Para abordar este desafío, agregaron dos elementos más a su estrategia de inferencia.

El primero fue la búsqueda diversa de árboles de verificación (DVTS), una variante de la búsqueda por haz que garantiza que el SLM no se quede atascado en caminos de razonamiento falsos y diversifique sus ramas de respuesta. En segundo lugar, desarrollaron una “estrategia de escalamiento óptimo para el cálculo”, como se sugiere en el artículo de DeepMind, que elige dinámicamente la mejor estrategia de escalamiento en el momento de la prueba en función de la dificultad del problema de entrada.

La combinación de estas técnicas permitió al Llama-3.2 1B superar su peso y superar al modelo 8B por un margen significativo. También descubrieron que la estrategia period escalable y, cuando se aplicó a Llama-3.2 3B, pudieron superar al modelo 70B, mucho más grande.

Aún no es una solución perfecta

La ampliación del cálculo en el momento de la prueba cambia la dinámica de los costos del modelo. Las empresas ahora tienen la posibilidad de elegir dónde asignar sus recursos informáticos. Por ejemplo, si tiene poca memoria o puede tolerar tiempos de respuesta más lentos, puede utilizar un modelo pequeño y dedicar más ciclos de tiempo de inferencia para generar respuestas más precisas.

Sin embargo, el escalado en el tiempo de prueba también tiene sus limitaciones. Por ejemplo, en los experimentos llevados a cabo por Hugging Face, los investigadores utilizaron un modelo Llama-3.1-8B especialmente entrenado como PRM, que requiere ejecutar dos modelos en paralelo (aunque es mucho más eficiente en recursos que el modelo 70B). Los investigadores reconocen que el santo grial del escalado en el tiempo de prueba es tener una “autoverificación”, donde el modelo authentic verifica su propia respuesta en lugar de depender de un verificador externo. Esta es un área abierta de investigación.

La técnica de escalamiento del tiempo de prueba presentada en este estudio también se limita a problemas donde la respuesta se puede evaluar claramente, como codificación y matemáticas. La creación de modelos de recompensa y verificadores para tareas subjetivas como la escritura creativa y el diseño de productos requiere más investigación.

Pero lo que está claro es que el escalamiento en el tiempo de prueba ha generado mucho interés y actividad y podemos esperar que surjan más herramientas y técnicas en los próximos meses. Las empresas harán bien en estar atentas a cómo se desarrolla el panorama.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles