Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Comenzó con el anuncio de Modelo O1 de Openai en septiembre de 2024, pero realmente despegó con el Lanzamiento de Deepseek R1 en enero de 2025.
Ahora, parece que la mayoría de los principales proveedores de modelos de IA y entrenadores están en una nueva carrera para ofrecer modelos de lenguaje AI de “razonamiento” mejores, más rápidos y más baratos, es decir, los que tal vez tardan un poco más en responder a un usuario humano, pero lo best, lo hacen con sus propias respuestas mejor, más completas y más completas “, que son las respuestas de la clase de los modelos.
Bytedance, el padre de los medios internet chinos de Tiktok, es el último en unirse a la fiesta con el anuncio y Publicación del documento técnico Detrás de la semilla-pensamiento-v1.5, un próximo modelo de idioma grande (LLM) diseñado para avanzar en el rendimiento del razonamiento en los campos de ciencias, tecnología, matemáticas e ingeniería (STEM) y dominios de uso normal.
El modelo aún no está disponible para descargar o usar, y no está claro cuáles serán los términos de licencia, ya sea que sea patentado/de código cerrado, código abierto/gratuito para que todos usen y modifiquen a voluntad, o en algún punto intermedio. Sin embargo, el documento técnico proporciona algunos detalles notables que vale la pena pasar ahora y antes de cuando estén disponibles.
Construido sobre la arquitectura de mezcla de expertos (MOE) cada vez más common
Como Meta’s New Llama 4 y MIXTRAL de Mistral Antes de él, la semilla-pensamiento-V1.5 se construye utilizando una arquitectura de mezcla de expertos (MOE).
Esta arquitectura está diseñada para hacer que los modelos sean más eficientes. Básicamente combina las capacidades de múltiples modelos en uno, cada uno especializado en un dominio diferente.
En este caso, la arquitectura MOE significa que el pensamiento de semilla-v1.5 usa solo 20 mil millones de los 200 mil millones de parámetros a la vez.
El byte cube en su Documento técnico publicado en Github Esa semilla de pensamiento v1.5 prioriza el razonamiento estructurado y la generación de respuesta reflexiva.
Los resultados casi se hablan por sí mismos, con el mejor rendimiento de la semilla V1.5 superando a Deepseek R1 y acercándose al recientemente lanzado Razonor de Gemini 2.5 Professional de Google y el Razonor O3-Mini-Excessive de OpenAI en muchas evaluaciones de referencia de terceros. Incluso supera a esos dos en el caso del Punto de referencia arc-agique mide el progreso hacia la inteligencia normal synthetic, visto como el objetivo o el “santo grial” de la IA. Este modelo supera a los humanos en la mayoría de las tareas económicamente valiosas, según la definición de OpenAI.

Posicionado como una alternativa compacta pero capaz a modelos más grandes de última generación, Semilla-Considering-V1.5 logra resultados de referencia competitivos. Presenta innovaciones de aprendizaje de refuerzo (RL), curación de datos de capacitación e infraestructura de IA.
Puntos de referencia de rendimiento y enfoque del modelo
Seed-Considering-V1.5 muestra un fuerte rendimiento en un conjunto de tareas desafiantes, obteniendo un 86.7% en AIME 2024, 55.0% pase@8 en CodeForces y 77.3% en el punto de referencia de Ciencias GPQA. Estos resultados lo colocan cerca o de modelos coincidentes como O3-Mini-Excessive de OpenAI y Gemini 2.5 Professional de Google en métricas de razonamiento específicas.
En las tareas que no son de condición, el modelo se evaluó a través de las comparaciones de preferencias humanas y logró una tasa de victorias de 8.0% más alta sobre DeepSeek R1, lo que sugiere que sus fortalezas se generalizan más allá de los desafíos lógicos o con pesas matemáticas.
Para abordar la saturación en puntos de referencia estándar como AIME, Bytedance introducido BeyondAIME, un nuevo punto de referencia matemático más difícil con problemas curados diseñados para resistir la memorización y discriminar mejor el rendimiento del modelo. Se espera que este y el conjunto de evaluación de CodeForces se publiquen públicamente para apoyar la investigación futura.
Estrategia de datos
Los datos de capacitación jugaron un papel central en el desarrollo del modelo. Para el ajuste supervisado (SFT), el equipo seleccionó 400,000 muestras, incluidas 300,000 verificables (tareas de STEM, lógica y codificación) y 100,000 problemas no verificables como la escritura creativa y el juego de roles.
Para el entrenamiento RL, los datos se segmentaron en:
- Problemas verificables: 100.000 preguntas de tallo y rompecabezas de lógica filtrados rigurosamente con respuestas conocidas, obtenidas de competiciones de élite y revisión de expertos.
- Tareas no verificables: conjuntos de datos de preferencia humana centrados en indicaciones abiertas, evaluadas utilizando modelos de recompensa por pares.
Los datos de STEM se inclinaron en gran medida en las matemáticas avanzadas, representando más del 80% del conjunto de problemas. Los datos lógicos adicionales incluyeron tareas como sudoku y rompecabezas de 24 puntos, con dificultad ajustable para igualar el progreso del modelo.
Enfoque de aprendizaje de refuerzo
El aprendizaje de refuerzo en la semilla-pensamiento-v1.5 está impulsado por los marcos personalizados de actores críticos (VAPO) y de gradiente de políticas (DAPO), desarrollados para abordar las inestabilidades conocidas en la capacitación de RL. Estas técnicas reducen la escasez de señales de recompensa y mejoran la estabilidad del entrenamiento, especialmente en entornos de cadena de pensamiento largo (COT).
Los modelos de recompensa juegan un papel basic en la supervisión de los resultados de RL. Bytedance introdujo dos herramientas clave:
- Verificador de semillas: un LLM basado en reglas que verifica si se genera y las respuestas de referencia son matemáticamente equivalentes.
- Verificador de pensamiento de semillas: un juez basado en el razonamiento paso a paso que mejora la consistencia del juicio y resiste la piratería de recompensas.
Este sistema de recompensas de dos niveles permite una evaluación matizada para tareas sencillas y complejas.
Infraestructura y escala
Para respaldar una capacitación eficiente a gran escala, Bytedance construyó un sistema sobre su marco de flujo híbrido. La ejecución es manejada por grupos de rayos, y los procesos de entrenamiento e inferencia se ubican conjuntamente para reducir el tiempo de inactividad de GPU.
El sistema de transmisión de transmisión (SRS) es una innovación notable que separa la evolución del modelo de la ejecución del tiempo de ejecución. Acelera la velocidad de iteración al administrar asíncronamente las generaciones parcialmente completadas en las versiones del modelo. Según los informes, esta arquitectura ofrece hasta 3 × ciclos RL más rápidos.
Las técnicas de infraestructura adicionales incluyen:
- Precisión mixta (FP8) para ahorros de memoria
- Paralelismo experto y ajuste automático del núcleo para la eficiencia de MOE
- Bytecheckpoint para puntos de management resistentes y flexibles
- Autotuner para optimizar las configuraciones de paralelismo y memoria
Evaluación humana e impacto del mundo actual
Para evaluar la alineación con las preferencias centradas en el ser humano, el bytete realizó pruebas humanas en una variedad de dominios, incluida la escritura creativa, el conocimiento de las humanidades y la conversación normal.
Semilla-pensamiento-v1.5 superó constantemente a DeepSeek R1 a través de las sesiones, reforzando su aplicabilidad a las necesidades de los usuarios del mundo actual.
El equipo de desarrollo señala que los modelos de razonamiento entrenados principalmente en tareas verificables demostraron una fuerte generalización a los dominios creativos, un resultado atribuido a la estructura y el rigor integrado en flujos de trabajo de capacitación matemática.
Lo que significa para líderes técnicos, ingenieros de datos y tomadores de decisiones empresariales
Para los clientes potenciales técnicos que administran el ciclo de vida de los modelos de idiomas grandes, desde la curación de datos hasta la implementación, seed-pensamiento-V1.5 presenta una oportunidad para repensar cómo las capacidades de razonamiento se integran en las pilas de IA empresariales.
Su proceso de capacitación modular, que incluye conjuntos de datos de razonamiento verificable y aprendizaje de refuerzo multifase, particularmente atrae a equipos que buscan escalar el desarrollo de LLM mientras se conservan el management de grano fino.
Los movimientos de Bytedance para introducir el verificador de semillas y los mecanismos de oferta del verificador de pensamiento de semillas para un modelado de recompensas más confiable, lo que puede ser crítico al implementar modelos en entornos orientados al cliente o regulados.
Para los equipos que operan bajo plazos ajustados y un ancho de banda limitado, la estabilidad del modelo bajo aprendizaje de refuerzo, habilitado por innovaciones como VAPO y muestreo dinámico, podría reducir los ciclos de iteración y racionalizar el ajuste fino para tareas específicas.
Desde una perspectiva de orquestación y despliegue, el enfoque de infraestructura híbrida del modelo, incluido el sistema de despliegue de transmisión (SRS) y el soporte para la optimización de FP8, suministra ganancias significativas en el rendimiento del entrenamiento y la utilización del {hardware}.
Estas características serían valiosas para los ingenieros responsables de escalar las operaciones de LLM en los sistemas de nubes y en los primeros. El hecho de que la semilla-pensamiento-v1.5 fue entrenado con mecanismos para adaptar la retroalimentación de recompensas basadas en la dinámica del tiempo de ejecución habla directamente de los desafíos de gestionar las tuberías de datos heterogéneas y mantener la consistencia entre los dominios.
Para los equipos encargados de garantizar la confiabilidad, la reproducibilidad y la integración continua de nuevas herramientas, el diseño a nivel de sistema de pensamiento v1.5 de semillas podría servir como un plan para construir sistemas de orquestación multimodal robustos.
Para los profesionales de la ingeniería de datos, el enfoque estructurado para capacitar datos, incluidos el filtrado riguroso, el aumento y la verificación de expertos, refuerza la importancia de la calidad de los datos como un multiplicador del rendimiento del modelo. Esto podría inspirar enfoques más deliberados para el desarrollo del conjunto de datos y las tuberías de validación.
Perspectiva futura
SEED-PENTING-V1.5 Resulta de la colaboración dentro del equipo de Sistemas LLM Seed LLM de Bytedance, dirigido por Yonghui Wu y con representación pública de Haibin Lin, un contribuyente de IA desde hace mucho tiempo.
El proyecto también se basa en esfuerzos anteriores, como Doubao 1.5 Professional, e incorpora técnicas compartidas en RLHF y curación de datos.
El equipo planea continuar refinando las técnicas de aprendizaje de refuerzo, centrándose en la eficiencia de capacitación y el modelado de recompensas para tareas no verificables. La liberación pública de puntos de referencia internos como BeyondAIME está destinado a fomentar un avance más amplio en la investigación de IA centrada en el razonamiento.