30.9 C
Colombia
domingo, julio 6, 2025

Deepcoder ofrece un rendimiento de codificación superior en un modelo abierto de 14b eficiente


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Investigadores de Juntos ai y Agente han lanzado DeepCoder-14b, un nuevo modelo de codificación que ofrece un rendimiento impresionante comparable a los principales modelos propietarios como O3-Mini de Openai.

Construido sobre Deepseek-R1, este modelo brinda más flexibilidad para integrar las capacidades de generación de código y razonamiento de alto rendimiento en aplicaciones del mundo actual. Es importante destacar que los equipos han recibido el modelo, sus datos de capacitación, código, registros y optimizaciones del sistema, lo que puede ayudar a los investigadores a mejorar su trabajo y acelerar el progreso.

Capacidades de codificación competitiva en un paquete más pequeño

Los experimentos del equipo de investigación muestran que DeepCoder-14b funciona fuertemente en varios puntos de referencia de codificación desafiantes, incluidos LivecodeBench (LCB), Codeforces y Humaneval+.

“Nuestro modelo demuestra un fuerte rendimiento en todos los puntos de referencia de codificación … comparable al rendimiento de O3-Mini (bajo) y O1”, escriben los investigadores en un weblog que describe el modelo.

Curiosamente, a pesar de estar entrenado principalmente en tareas de codificación, el modelo muestra un razonamiento matemático mejorado, anotando un 73.8% en el punto de referencia AIME 2024, una mejora del 4.1% sobre su modelo base (Deepseek-R1-Distill-Qwen-14b). Esto sugiere que las habilidades de razonamiento desarrolladas a través de RL en el código pueden generalizarse de manera efectiva a otros dominios.

Deepcoder-14b rendimiento
Crédito: juntos ai

El aspecto más llamativo es lograr este nivel de rendimiento con solo 14 mil millones de parámetros. Esto hace que DeepCoder sea significativamente más pequeño y potencialmente más eficiente para ejecutar que muchos modelos fronterizos.

Innovaciones que impulsan el rendimiento de Deepcoder

Mientras desarrollaban el modelo, los investigadores resolvieron algunos de los desafíos clave en modelos de codificación de entrenamiento Usar el aprendizaje de refuerzo (RL).

El primer desafío fue curar los datos de entrenamiento. El aprendizaje de refuerzo requiere señales de recompensa confiables que indican que la salida del modelo es correcta. Como señalan los investigadores, “a diferencia de las matemáticas, donde abundantes datos verificables de alta calidad están fácilmente disponibles en Web, el dominio de codificación sufre de una escasez relativa de dichos datos”.

Para abordar este problema, el equipo de Deepcoder implementó una canalización estricta que recopila ejemplos de diferentes conjuntos de datos y los filtra para la validez, la complejidad y la duplicación. Este proceso arrojó 24,000 problemas de alta calidad, proporcionando una base sólida para una capacitación efectiva de RL.

El equipo también diseñó una función de recompensa directa que solo proporciona una señal positiva si el código generado pasa todas las pruebas unitarias muestreadas para el problema dentro de un límite de tiempo específico. Combinado con los ejemplos de capacitación de alta calidad, este sistema de recompensas centrado en los resultados evita que el modelo de aprendizaje de aprendizaje como imprimir respuestas memorizadas para pruebas públicas u optimización para casos de borde simples sin resolver el problema central.

El algoritmo de capacitación central del modelo se basa en la optimización de políticas relativas del grupo (GRPO), un algoritmo de aprendizaje de refuerzo que demostró muy exitoso en Deepseek-r1. Sin embargo, el equipo realizó varias modificaciones al algoritmo para hacerlo más estable y permitir que el modelo continúe mejorando a medida que el entrenamiento se extiende por más tiempo.

Grpo+
GRPO+ permite que DeepCoder-14 continúe durante duraciones más largas sin colapsar crédito: juntos ai

Finalmente, el equipo extendió la ventana de contexto del modelo de iteración, primero entrenándola en secuencias de razonamiento más cortas y aumentando gradualmente la longitud. También desarrollaron un método de filtrado para evitar penalizar el modelo cuando creó cadenas de razonamiento que excedieron los límites de contexto al resolver un aviso duro.

Extensión de contexto iterativo
Deepcoder fue entrenado en problemas de contexto de 32k, pero también pudo resolver el crédito de 64k tareas: juntos ai

Los investigadores explican la thought central: “Para preservar el razonamiento de contexto largo mientras habilitan un entrenamiento eficiente, incorporamos un filtrado demasiado largo … esta técnica enmascara secuencias truncadas durante el entrenamiento para que los modelos no sean penalizados por generar salidas reflexivas pero largas que exceden el límite de contexto precise”.

La capacitación se escaló gradualmente de una ventana de contexto de 16k a una 32k, y el modelo resultante también podría resolver problemas que requerían hasta 64k tokens.

Optimización del entrenamiento RL de contexto largo

El entrenamiento de modelos grandes con RL, especialmente en tareas que requieren secuencias generadas largas como codificación o razonamiento complejo, es computacionalmente intensivo y lento. Un cuello de botella importante es el paso de “muestreo”, donde el modelo genera potencialmente miles de tokens por ejemplo en el lote. Las variaciones en la longitud de respuesta significan que algunas respuestas terminan mucho más tarde que otras, dejando las GPU inactivas y disminuyendo todo el circuito de entrenamiento.

Para acelerar esto, el equipo desarrolló Verl-Pipeline, una extensión optimizada de la biblioteca de verl de código abierto para Refuerzo Aprendiendo de la retroalimentación humana (RLHF). La innovación clave, que llaman “tuberías únicas”, reorganiza el muestreo de respuesta y las actualizaciones del modelo para reducir los cuellos de botella y el tiempo de inactividad del acelerador.

Tuberías únicas
Tuberías únicas

Sus experimentos mostraron que la tubería única proporcionó una aceleración 2X para codificar las tareas RL en comparación con las implementaciones de línea de base. Esta optimización fue essential para entrenar a Deepcoder en un plazo razonable (2.5 semanas en 32 H100) y ahora es de código abierto como parte de Verl-Pipeline para que la comunidad lo use y se construya.

Impacto empresarial

Los investigadores han puesto a disposición todos los artefactos para la capacitación y la ejecución de DeepCoder-14b Github y Cara abrazada bajo una licencia permisiva.

“Al compartir completamente nuestro conjunto de datos, código y receta de capacitación, capacitamos a la comunidad para reproducir nuestro trabajo y hacer que la capacitación de RL sea accesible para todos”, escriben los investigadores.

Deepcoder-14b ilustra poderosamente una tendencia más amplia y acelerada en el paisaje de IA: el aumento de modelos altamente capaces pero eficientes y accesibles.

Para el mundo empresarial, este cambio significa más opciones y mayor accesibilidad de modelos avanzados. El rendimiento de vanguardia ya no es el dominio de los hiperscalers o aquellos que están dispuestos a pagar tarifas de API de primas. Modelos como DeepCoder pueden capacitar a las organizaciones de todos los tamaños para aprovechar la generación y el razonamiento de código sofisticados, personalizar soluciones a sus necesidades específicas y implementarlas de forma segura dentro de sus entornos.

Esta tendencia puede reducir la barrera de entrada para la adopción de IA y fomentar un ecosistema más competitivo e innovador, donde el progreso se impulsa a través de la colaboración de código abierto.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles