Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Equipo de Qwenuna división del gigante chino de comercio electrónico Alibaba El desarrollo de su creciente familia de modelos de lenguaje de gran código abierto (LLMS) ha introducido QWQ-32Bun nuevo modelo de razonamiento de 32 mil millones de parámetros diseñado para mejorar el rendimiento en tareas complejas de resolución de problemas a través del aprendizaje de refuerzo (RL).
El modelo está disponible como peso abierto en Cara abrazada y Modelscope bajo una licencia Apache 2.0. Esto significa que está disponible para usos comerciales y de investigación, por lo que las empresas pueden emplearlo de inmediato para alimentar sus productos y aplicaciones (incluso a los que cobran a los clientes a usar).
También se puede acceder para usuarios individuales a través de Chat de qwen.
Quan-With-Questions fue la respuesta de Alibaba al modelo de razonamiento authentic de Openi O1
QWQ, abreviatura de Qwen-With-Questions, fue introducido por primera vez por Alibaba en noviembre de 2024 Como modelo de razonamiento de código abierto destinado a competir con OpenAI’s O1-Preview.
En el lanzamiento, el modelo fue diseñado para mejorar el razonamiento y la planificación lógicos revisando y refinando sus propias respuestas durante la inferencia, una técnica que la hizo particularmente efectiva en las tareas de Matemáticas y Codificación.
La versión inicial de QWQ contó con 32 mil millones de parámetros y una longitud de contexto de 32,000 token, con Alibaba destacando su capacidad para superar a la previsión O1 en puntos de referencia matemáticos como Aime y Matemáticas, así como tareas de razonamiento científico como GPQA.
A pesar de sus fortalezas, las primeras iteraciones de QWQ lucharon con los puntos de referencia de programación como LivecodeBench, donde los modelos de OpenAI mantuvieron una ventaja. Además, al igual que con muchos modelos de razonamiento emergentes, QWQ enfrentó desafíos como la mezcla de lenguaje y bucles de razonamiento circulares ocasionales.
Sin embargo, la decisión de Alibaba de lanzar el modelo bajo una licencia de Apache 2.0 aseguró que los desarrolladores y las empresas pudieran adaptarlo y comercializarlo libremente, distinguiéndolo de alternativas propietarias como OpenAi’s O1.
Desde el lanzamiento inicial de QWQ, el paisaje de IA ha evolucionado rápidamente. Las limitaciones de los LLM tradicionales se han vuelto más evidentes, con leyes de escala que producen rendimientos decrecientes en las mejoras de rendimiento.
Este cambio ha alimentado el interés en grandes modelos de razonamiento (LRMS), una nueva categoría de sistemas de IA que utilizan razonamiento de tiempo de inferencia y autorreflexión para mejorar la precisión. Estos incluyen Serie O3 de Openai y el enorme exitoso Deepseek-r1 del laboratorio chino rival Deepseek, una rama de la firma de análisis cuantitativo de Hong Kong Excessive-Flyer Capital Administration.
Un nuevo informe Desde la firma de análisis e investigación de tráfico net, Similsweb, descubrió que desde el lanzamiento de R1 en enero de 2024, Deepseek ha disparado las listas para convertirse en el sitio net que proporciona modelos de IA más visitado detrás de OpenAI.

QWQ-32B, la última iteración de Alibaba, se basa en estos avances integrando RL y el autopuestionamiento estructurado, posicionándolo como un competidor serio en el creciente campo de la IA centrada en el razonamiento.
Ampliar el rendimiento con aprendizaje de refuerzo de varias etapas
Los modelos tradicionales sintonizados con instrucciones a menudo luchan con tareas razonables difíciles, pero la investigación del equipo de Qwen sugiere que RL puede mejorar significativamente la capacidad de un modelo para resolver problemas complejos.
QWQ-32B se basa en esta concept mediante la implementación de un enfoque de capacitación RL de varias etapas para mejorar el razonamiento matemático, el dominio de la codificación y la resolución common de problemas.
El modelo se ha comparado con alternativas principales como Deepseek-R1, O1-Mini y Deepseek-R1-Distilled-Qwen-32b, demostrando resultados competitivos a pesar de tener menos parámetros que algunos de estos modelos.

Por ejemplo, mientras que Deepseek-R1 funciona con 671 mil millones de parámetros (con 37 mil millones activados), QWQ-32B logra un rendimiento comparable con una huella mucho más pequeña, que generalmente requiere 24 GB de VRAM en una GPU (Los H100 de NVIDIA tienen 80 GB) en comparación con más de 1500 GB de VRAM Para ejecutar el profundo R1 (16 GPU A100), destacando la eficiencia del enfoque RL de Qwen.
QWQ-32B sigue una arquitectura de modelo de lenguaje causal e incluye varias optimizaciones:
- 64 Capas de transformador con cuerda, swiglu, rmsnorm y sesgo QKV de atención;
- Atención de consulta generalizada (GQA) con 40 cabezas de atención para consultas y 8 para pares de valor clave;
- Longitud de contexto extendido de 131,072 tokens, lo que permite un mejor manejo de entradas de secuencia larga;
- Entrenamiento en varias etapas que incluyen previación previa, ajuste fino supervisado y RL.
El proceso RL para QWQ-32B se ejecutó en dos fases:
- Matemáticas y enfoque de codificación: El modelo fue entrenado utilizando un verificador de precisión para el razonamiento matemático y un servidor de ejecución de código para tareas de codificación. Este enfoque aseguró que las respuestas generadas fueran validadas para la corrección antes de ser reforzado.
- Mejora de la capacidad common: En una segunda fase, el modelo recibió capacitación basada en recompensas utilizando modelos generales de recompensa y verificadores basados en reglas. Esta etapa mejoró la instrucción, la alineación humana y el razonamiento del agente sin comprometer sus capacidades de matemáticas y codificación.
Lo que significa para los tomadores de decisiones empresariales
Para los líderes empresariales, incluidos los CEOs, CTO, líderes de TI, gerentes de equipo y desarrolladores de aplicaciones de IA, QWQ-32B representa un cambio potencial en la forma en que la IA puede apoyar la toma de decisiones comerciales y la innovación técnica.
Con sus capacidades de razonamiento impulsadas por RL, el modelo puede proporcionar información más precisa, estructurada y consciente de contexto, lo que lo hace valioso para casos de uso como análisis de datos automatizado, planificación estratégica, desarrollo de software program y automatización inteligente.
Las empresas que buscan implementar soluciones de IA para la resolución de problemas complejas, la asistencia de codificación, el modelado financiero o la automatización del servicio al cliente pueden encontrar que la eficiencia de QWQ-32B es una opción atractiva. Además, su disponibilidad de peso abierto permite a las organizaciones ajustar y personalizar el modelo para aplicaciones específicas de dominio sin restricciones patentadas, lo que lo convierte en una opción versatile para las estrategias de IA empresariales.
El hecho de que provenga de un gigante chino de comercio electrónico puede generar algunas preocupaciones de seguridad y sesgo para algunos usuarios no chinos, especialmente cuando se usa la interfaz de chat de Qwen. Pero al igual que con Deepseek-R1, el hecho de que el modelo esté disponible para abrazar la cara para descargar y usar el uso fuera de línea y ajuste o reentrenamiento sugiere que estos pueden superarse con bastante facilidad. Y es una alternativa viable a Deepseek-R1.
Reacciones tempranas de usuarios de IA Energy e influyentes
El lanzamiento de QWQ-32B ya ha llamado la atención de la comunidad de investigación y desarrollo de IA, con varios desarrolladores y profesionales de la industria que comparten sus impresiones iniciales en X (anteriormente Twitter):
- Abrazando la cara VAIBHAV SRIVASTAV (@Reach_VB) resaltó la velocidad de QWQ-32B en inferencia gracias al proveedor Laboratorios hiperbólicosllamándolo “bracificadoramente rápido” y comparable a los modelos de primer nivel. También señaló que el modelo “supera a Deepseek-R1 y OpenAI O1-Mini con la licencia Apache 2.0”.
- AI Information and Rumor Editor Gordito (@kimmonismus) quedó impresionado por el rendimiento del modelo, enfatizando que QWQ-32B a veces supera a Deepseek-R1, a pesar de ser 20 veces más pequeño. “¡Santo Moly! QWEN COCINADO! ” ellos escribió.
- Yuchen Jin (@yuchenj_uw), Cofundador y CTO de Laboratorios Hiperbólicos, Celebró el lanzamiento observando las ganancias de eficiencia. “¡Los modelos pequeños son tan poderosos! Alibaba Qwen lanzó QWQ-32B, un modelo de razonamiento que supera a Deepseek-R1 (671b) y OpenAi O1-Mini! “
- Otro miembro del equipo de la cara abrazada, Erik Kaunismäki (@erikkaum) Haga hincapié en la facilidad de implementación, compartiendo que el modelo está disponible para la implementación de un solo clic en los puntos finales de la cara abrazada, lo que lo hace accesible para los desarrolladores sin una configuración extensa.
Capacidades de agente
QWQ-32B incorpora capacidades de agente, lo que le permite ajustar dinámicamente los procesos de razonamiento basados en la retroalimentación ambiental.
Para un rendimiento óptimo, el equipo QWEN recomienda usar la siguiente configuración de inferencia:
- Temperatura: 0.6
- Topp: 0.95
- Topk: Entre 20 y 40
- Escala de hilo: Recomendado para secuencias de manejo de más de 32,768 fichas
El modelo admite la implementación utilizando VLLM, un marco de inferencia de alto rendimiento. Sin embargo, las implementaciones actuales de VLLM solo admiten la escala de hilo estático, que mantiene un issue de escala fijo independientemente de la longitud de entrada.
Desarrollos futuros
El equipo de Qwen ve QWQ-32B como el primer paso para escalar RL para mejorar las capacidades de razonamiento. Mirando hacia el futuro, el equipo planea:
- Explorar más a fondo la escala RL para mejorar la inteligencia del modelo;
- Integre agentes con RL para el razonamiento de Horizon Lengthy;
- Continuar desarrollando modelos de base optimizados para RL;
- Avanzar hacia la inteligencia common synthetic (AGI) a través de técnicas de capacitación más avanzadas.
Con QWQ-32B, el equipo QWEN está posicionando a RL como un controlador clave de la próxima generación de modelos de IA, lo que demuestra que la escala puede producir sistemas de razonamiento de alto rendimiento y efectivos.