34.7 C
Colombia
domingo, julio 6, 2025

OpenAi responde a la competencia Deepseek con rastros de razonamiento detallados para O3-Mini


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Operai ahora muestra más detalles del proceso de razonamiento de O3-Mini, su último modelo de razonamiento. El cambio fue anunciado en Cuenta X de Openai y viene como es el laboratorio de IA bajo mayor presión Por Deepseek-R1, un modelo abierto rival que muestra completamente sus tokens de razonamiento.

Los modelos como O3 y R1 experimentan un largo proceso de “cadena de pensamiento” (COT) en el que generan tokens adicionales para desglosar el problema, razonar y probar diferentes respuestas y alcanzar una solución last. Anteriormente, los modelos de razonamiento de OpenAI ocultaban su cadena de pensamiento y solo produjeron una descripción common de alto nivel de los pasos de razonamiento. Esto dificultó a los usuarios y desarrolladores comprender la lógica de razonamiento del modelo y cambiar sus instrucciones y indicaciones para dirigirlo en la dirección correcta.

Operai consideró una cadena de pensamiento una ventaja competitiva y la ocultó para evitar que los rivales copiaran para entrenar a sus modelos. Pero con R1 y otros modelos abiertos Mostrando su rastro de razonamiento completola falta de transparencia se convierte en una desventaja para OpenAi.

La nueva versión de O3-Mini muestra una versión más detallada de Cot. Aunque todavía no vemos las fichas crudas, proporciona mucha más claridad sobre el proceso de razonamiento.

Por qué es importante para las aplicaciones

En nuestro Experimentos anteriores En O1 y R1, encontramos que O1 period ligeramente mejor para resolver el análisis de datos y los problemas de razonamiento. Sin embargo, una de las limitaciones clave period que no había forma de descubrir por qué el modelo cometió errores, y a menudo cometió errores cuando se enfrentó a datos desordenados del mundo actual obtenidos de la internet. Por otro lado, la cadena de pensamiento de R1 nos permitió solucionar los problemas y cambiar nuestras indicaciones para mejorar el razonamiento.

Por ejemplo, en uno de nuestros experimentos, ambos modelos no pudieron proporcionar la respuesta correcta. Pero gracias a la cadena de pensamiento detallada de R1, pudimos descubrir que el problema no estaba con el modelo en sí sino con la etapa de recuperación que recopilaba información de la internet. En otros experimentos, la cadena de pensamiento de R1 pudo proporcionarnos pistas cuando no logró analizar la información que le proporcionamos, mientras que O1 solo nos dio una visión common muy aproximada de cómo estaba formulando su respuesta.

Probamos el nuevo modelo O3-Mini en una variante de un experimento anterior que ejecutamos con O1. Proporcionamos al modelo un archivo de texto que contiene precios de varias acciones desde enero de 2024 hasta enero de 2025. El archivo period ruidoso y sin formato, una mezcla de texto sin formato y elementos HTML. Luego le pedimos al modelo que calculara el valor de una cartera que invirtió $ 140 en las magníficas 7 acciones el primer día de cada mes desde enero de 2024 hasta enero de 2025, distribuidos uniformemente en todas las acciones (utilizamos el término “Magazine 7” en el le indica que sea un poco más desafiante).

La cuna de O3-Mini fue realmente útil esta vez. Primero, el modelo razonó sobre lo que period el MAG 7, filtró los datos para mantener solo las acciones relevantes (para hacer que el problema sea desafiante, agregamos algunas acciones que no son de MAG 7 a los datos), calculamos la cantidad mensual para invertir en cada uno inventory, e hizo los cálculos finales para proporcionar la respuesta correcta (la cartera valdría alrededor de $ 2,200 en el último momento registrado en los datos que proporcionamos al modelo).

Se necesitará muchas más pruebas para ver los límites de la nueva cadena de pensamiento, ya que Operai todavía está ocultando muchos detalles. Pero en nuestras verificaciones de ambientes, parece que el nuevo formato es mucho más útil.

Lo que significa para OpenAi

Cuando se lanzó Deepseek-R1, tenía tres ventajas claras sobre los modelos de razonamiento de OpenAi: period abierto, barato y transparente.

Desde entonces, Operai ha logrado acortar la brecha. Mientras que O1 cuesta $ 60 por millón de tokens de producción, O3-Mini cuesta solo $ 4.40, al tiempo que supera a O1 en muchos puntos de referencia de razonamiento. R1 cuesta alrededor de $ 7 y $ 8 por millón de tokens en proveedores estadounidenses. (Deepseek ofrece R1 a $ 2.19 por millón de tokens en sus propios servidores, pero muchas organizaciones no podrán usarlo porque está alojado en China).

Con el nuevo cambio en la salida de cuna, OpenAI ha logrado trabajar en torno al problema de transparencia.

Queda por ver lo que OpenAi hará para abrir sus modelos. Desde su lanzamiento, R1 ya ha sido adaptado, bifurcado y alojado por muchos laboratorios y compañías diferentes que potencialmente lo convierten en el modelo de razonamiento preferido para las empresas. El CEO de Operai, Sam Altman, admitió recientemente que period “En el lado equivocado de la historia“En debate de código abierto. Tendremos que ver cómo esta realización se manifestará en los lanzamientos futuros de OpenAi.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles