25.3 C
Colombia
lunes, julio 7, 2025

Alibaba presenta Qwen 3, una familia de modelos de razonamiento de IA ‘híbridos’


Compañía de tecnología china Alibaba el lunes liberado Qwen 3, una familia de AI modela la compañía que reclama coinciden y, en algunos casos, supera a los mejores modelos disponibles de Google y OpenAI.

La mayoría de los modelos están, o pronto estarán, disponibles para descargar bajo una licencia “abierta” desde la plataforma AI Dev Cara abrazada y Github. Randean en tamaño de 0.6 mil millones de parámetros a 235 mil millones de parámetros. Los parámetros corresponden aproximadamente a las habilidades de resolución de problemas de un modelo, y los modelos con más parámetros generalmente funcionan mejor que aquellos con menos parámetros.

El surgimiento de la serie de modelos originada en China como Qwen ha aumentado la presión en los laboratorios estadounidenses como OpenAI para ofrecer tecnologías de IA más capaces. También han llevado a los formuladores de políticas a implementar restricciones destinadas a limitar la capacidad de las compañías de IA chinas para obtener el papas fritas necesario para entrenar modelos.

Según Alibaba, los modelos QWEN 3 son modelos “híbridos” en el sentido de que pueden tomar tiempo y “razón” a través de problemas complejos o responder solicitudes más simples rápidamente. El razonamiento permite que los modelos se revisen de manera efectiva, related a modelos como OpenAi’s O3pero a costa de mayor latencia.

“Tenemos modos de pensamiento y sin pensamiento sin problemas, ofreciendo a los usuarios la flexibilidad de controlar el presupuesto de pensamiento”, escribió el equipo QWEN en un weblog. “Este diseño permite a los usuarios configurar los presupuestos específicos de la tarea con mayor facilidad”.

Algunos de los modelos también adoptan una mezcla de arquitectura de expertos (MOE), que puede ser más computacionalmente eficiente para responder consultas. MOE divide las tareas en subtareas y las delega a modelos “expertos” más pequeños y especializados.

Los modelos Qwen 3 admiten 119 idiomas, cube Alibaba, y fueron entrenados en un conjunto de datos de casi 36 billones de tokens. Los tokens son los bits de datos sin procesar que procesa un modelo; 1 millón de tokens es equivalente a aproximadamente 750,000 palabras. Alibaba cube que Qwen 3 fue entrenado en una combinación de libros de texto, “pares de respuesta-respuesta”, fragmentos de código, datos generados por IA y más.

Estas mejoras, junto con otras, aumentaron enormemente las capacidades de Qwen 3 en comparación con su predecesor, Qwen 2, cube Alibaba. Ninguno de los modelos Qwen 3 es la cabeza y los hombros por encima de los modelos recientes de primera línea como O3 y O4-Mini de OpenAI, pero no obstante son fuertes.

En CodeForces, una plataforma para concursos de programación, el modelo QWEN 3 más grande, QWEN-3-235B-A22B, solo supera a OpenAi’s O3-Mini y Google’s Géminis 2.5 Professional. QWEN-3-235B-A22B también supera a O3-Mini en la última versión de AIME, un punto de referencia de matemáticas desafiante y BFCL, una prueba para evaluar la capacidad de un modelo para “razonar” sobre los problemas.

Pero QWEN-3-235B-A22B no está disponible públicamente, al menos aún no.

Alibaba Qwen 3 puntos de referencia
Resultados de referencia internos de Alibaba para Qwen 3.Créditos de imagen:Alibaba

El modelo público QWEN 3 más grande, QWen3-32b, sigue siendo competitivo con una serie de modelos de IA abiertos y propios, incluidos los profundos del laboratorio de IA chino, Deepseek’s R1. QWEN3-32B supera a OpenAI O1 modelo en varias pruebas, incluido el referencia de codificación LivecodeBench.

Alibaba cube que Qwen 3 “sobresale” en las capacidades de llamado de herramientas, así como las siguientes instrucciones y copia de formatos de datos específicos. Además de los modelos para descargar, Qwen 3 está disponible en proveedores de la nube, incluidos los fuegos artificiales, IA e hiperbólicos.

Tuhin Srivastava, cofundador y CEO del anfitrión de AI Cloud Baseten, dijo que Qwen 3 es otro punto en la línea de tendencias de modelos abiertos que mantienen ritmo con sistemas de código cerrado como OpenAi’s.

“Estados Unidos se está duplicando para restringir las ventas de chips a China y las compras de China, pero modelos como Qwen 3 que son de vanguardia y abiertos […] Sin duda, se usará a nivel nacional “, dijo a TechCrunch.” Refleja la realidad de que las empresas están construyendo sus propias herramientas [as well as] Comprar en el estante a través de compañías de modelo cerrado como Anthrope y OpenAI “.



Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles