Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Opadai Lanzó dos modelos de IA innovadores hoy que pueden razonar con imágenes y usar herramientas de forma independiente, lo que representa lo que los expertos llaman un cambio de paso en las capacidades de inteligencia synthetic.
La compañía con sede en San Francisco introdujo O3 y O4-Minilo último en su “serie O” de modelos de razonamiento, que afirma que son sus modelos más inteligentes y capaces hasta la fecha. Estos sistemas pueden integrar imágenes directamente en su proceso de razonamiento, buscar en la net, ejecutar código, analizar archivos e incluso generar imágenes dentro de un solo flujo de tareas.
“Hay algunos modelos que se sienten como un paso cualitativo en el futuro. GPT-4 fue uno de esos. Hoy también será uno de esos días”, dijo Greg Brockman, presidente de Operai, durante una conferencia de prensa que anuncia el lanzamiento. “Estos son los primeros modelos en los que los principales científicos nos dicen que producen concepts novedosas legítimamente buenas y útiles”.
Cómo los nuevos modelos de OpenAI ‘pensar con imágenes’ para transformar la resolución de problemas visuales
La característica más llamativa de estos nuevos modelos es su capacidad para “Piense con imágenes“-No solo verlos, sino manipular y razonar sobre ellos como parte de su proceso de resolución de problemas.
“No solo ven una imagen, piensan con ella”, dijo Openai en un comunicado enviado a VentureBeat. “Esto desbloquea una nueva clase de resolución de problemas que combina el razonamiento visible y textual”.
Durante una demostración en la conferencia de prensa, un investigador mostró cómo O3 podría analizar un póster de física de una pasantía de una década, navegar sus complejos diagramas de forma independiente e incluso identificar que el resultado last no estaba presente en el póster en sí.
“Debe haber leído, ya sabes, al menos como 10 documentos diferentes en unos segundos para mí”, dijo Brandon McKenzie, investigador de OpenAi que trabaja en razonamiento multimodal, durante la demostración. Estimó que la tarea le habría llevado “muchos días solo para que me guste, a bordo, a mí mismo, de regreso a mi proyecto, y luego unos días más probablemente, buscar en la literatura”.
La capacidad de la IA para manipular las imágenes en su proceso de razonamiento (ampliar los detalles, los diagramas giratorios o recortar elementos innecesarios) representa un enfoque novedoso que los analistas de la industria dicen que podrían revolucionar los campos de la investigación científica a la educación.
Tuve acceso temprano, O3 es un modelo impresionante, parece muy capaz. Algunos ejemplos divertidos:
– Ethan Mollick (@emollick) 16 de abril de 2025
1) rompió un caso de negocios que uso en mi clase
2) Creación de algunos SVG (imágenes creadas solo por código)
3) Escribir una historia restringida de dos giros entrelazados
4) Batalla espacial de ciencia ficción dura. pic.twitter.com/tk4pkvknot
Los ejecutivos de Operai enfatizaron que estas versiones representan más que solo modelos mejorados: son sistemas de IA completos que pueden usar y encadenar de forma independiente múltiples herramientas al resolver problemas.
“Los hemos capacitado para usar herramientas a través del aprendizaje de refuerzo, enseñándolos no solo cómo usar herramientas, sino para razonar cuándo usarlas”, explicó la compañía en su comunicado.
Greg Brockman destacó las extensas capacidades de uso de la herramienta de los modelos: “En realidad usan estas herramientas en su cadena de pensamiento mientras intentan resolver un problema difícil. Por ejemplo, hemos visto que O3 usa como 600 llamadas de herramientas en fila tratando de resolver una tarea realmente difícil”.
Esta capacidad permite que los modelos realicen flujos de trabajo complejos de varios pasos sin dirección humana constante. Por ejemplo, si se le pregunta sobre los patrones de uso de energía futuros en California, la IA puede buscar datos de servicios públicos en la Internet, escribir código Python para analizarlo, generar visualizaciones y producir un informe integral, todo como un proceso de fluido único.
Operai se adelanta a los competidores con un rendimiento récord en los puntos de referencia de IA clave
OpenAI afirma que O3 establece nuevos puntos de referencia de última generación en las medidas clave de la capacidad de IA, incluida Codeforces, SWE Benchy Mmmu. En evaluaciones de expertos externos, O3 supuestamente comete un 20 por ciento menos de errores importantes que su predecesor en tareas difíciles del mundo actual.
El modelo O4-Mini más pequeño está optimizado para la velocidad y la eficiencia de rentabilidad al tiempo que mantiene fuertes capacidades de razonamiento. En el AIME 2025 Competencia de matemáticasO4-Mini obtuvo un 99.5 por ciento cuando se le dio acceso a un intérprete de Python.
“Realmente creo que con este conjunto de modelos, O3 y O4-Mini, veremos más avances”, dijo Mark Chen, jefe de investigación de Operai, durante la conferencia de prensa.
El momento de este lanzamiento es significativo, llegando solo dos días después de que Operai dio a conocer su Modelo GPT-4.1que sobresale en las tareas de codificación. La rápida sucesión de anuncios indica una aceleración en el panorama competitivo de IA, donde Operai enfrenta una presión creciente de Google Modelos de GéminisAnthrope’s Tirary Elon Musk’s xai.
El mes pasado, Openai cerró lo que equivale a la ronda de financiación de tecnología privada más grande de la historia, Recaudando $ 40 mil millones con una valoración de $ 300 mil millones. Según los informes, la compañía también está considerando construir su propia purple socialpotencialmente para competir con la plataforma X de Elon Musk y asegurar una fuente patentada de datos de capacitación.
O3 y O4-Mini son súper buenos para codificar, por lo que estamos lanzando un nuevo producto, Codex CLI, para que sean más fáciles de usar.
Este es un agente de codificación que se ejecuta en su computadora. Es de código abierto y está disponible hoy; Esperamos que mejore rápidamente.
– Sam Altman (@sama) 16 de abril de 2025
Cómo los nuevos modelos de OpenAI transforman la ingeniería de software program con habilidades de navegación de código sin precedentes
Un área donde los nuevos modelos, en explicit, Excel es la ingeniería de software program. Brockman señaló durante la conferencia de prensa que O3 es “realmente mejor de lo que estoy en navegar a través de nuestra base de código Operai, lo cual es realmente útil”.
Como parte del anuncio, Operai también introdujo CODEX CLIun agente de codificación liviano que se ejecuta directamente en el terminal de un usuario. La herramienta de código abierto permite a los desarrolladores aprovechar las capacidades de razonamiento de los modelos para la codificación de tareas, con soporte para capturas de pantalla y bocetos.
“También estamos compartiendo un nuevo experimento: Codex CLI, un agente de codificación liviano que puede ejecutar desde su terminal”, anunció la compañía. “Puede obtener los beneficios del razonamiento multimodal de la línea de comando pasando capturas de pantalla o bocetos de baja fidelidad al modelo, combinados con el acceso a su código localmente”.
Para fomentar la adopción, OpenAi está lanzando un Iniciativa de $ 1 millón Para apoyar proyectos utilizando modelos Codex CLI y OpenAI, con subvenciones disponibles en incrementos de $ 25,000 en créditos API.
Dentro de los protocolos de seguridad mejorados de OpenAI: cómo la compañía protege contra el mal uso de la IA
Operai informa que realizan amplias pruebas de seguridad en los nuevos modelos, particularmente centrados en su capacidad para rechazar las solicitudes dañinas. Las medidas de seguridad de la compañía incluyen reconstruir completamente sus datos de capacitación en seguridad y desarrollar mitigaciones a nivel del sistema para marcar indicaciones peligrosas.
“Hasta la fecha, probamos ambos modelos con nuestro programa de seguridad más riguroso”, declaró la compañía, señalando que tanto O3 como O4-Mini permanecen por debajo del umbral “alto” de OpenAI para los riesgos potenciales en las capacidades biológicas, cibernéticas de seguridad cibernética y de IA.
Durante la conferencia de prensa, los investigadores de OpenAI Wenda y Ananya presentaron resultados detallados de referencia, señalando que los nuevos modelos se sometieron a más de 10 veces el cálculo de capacitación de versiones anteriores para lograr sus capacidades.
Cuándo y cómo puede acceder a O3 y O4-Mini: línea de tiempo de implementación y estrategia comercial
Los nuevos modelos están disponibles de inmediato para Chatgpt más, Professionaly Equipo usuarios, con Empresa y Educación Los clientes obtienen acceso la próxima semana. Los usuarios gratuitos pueden probar O4-Mini seleccionando “Assume” en el compositor antes de enviar consultas.
Los desarrolladores pueden acceder a ambos modelos a través de OpenAi’s API de finalización de chat y Respuestas APIaunque algunas organizaciones necesitarán verificación para acceder a ellas.
El lanzamiento representa una oportunidad comercial significativa para OpenAI, ya que los modelos parecen más capaces y más rentables que sus predecesores. “Por ejemplo, en la competencia de matemáticas de AIME 2025, la frontera de rendimiento de costo para O3 mejora estrictamente sobre O1, y de manera related, la frontera de O4-Mini mejora estrictamente sobre O3-Mini”, declaró la compañía.
El futuro de la IA: cómo Operai está uniendo razonamiento y conversación para los sistemas de próxima generación
Los analistas de la industria ven estos lanzamientos como parte de una convergencia más amplia en las capacidades de IA, con modelos que combinan cada vez más razonamiento especializado con habilidades de conversación pure y uso de herramientas.
“Las actualizaciones de hoy reflejan la dirección en la que se dirigen nuestros modelos: estamos convergiendo las capacidades de razonamiento especializadas de la Serie O con más habilidades de conversación pure y el uso de herramientas de la serie GPT”, señaló Openii en su lanzamiento.
Ethan Mollick, profesor asociado en la Escuela Wharton que estudia la adopción de IA, describió a O3 como “un modelo muy fuerte, pero aún así irregular” en una publicación en las redes sociales después del anuncio.
A medida que la competencia en el espacio de IA continúa intensificándose, con Google, Anthrope y otros que liberan modelos cada vez más poderosos, el doble enfoque de OpenAI tanto en las capacidades de razonamiento como en el uso práctico de herramientas sugiere una estrategia destinada a mantener su posición de liderazgo al ofrecer inteligencia y utilidad.
Con O3 y O4-Mini, OpenAi ha cruzado un umbral donde las máquinas comienzan a percibir imágenes como lo hacen los humanos, manipulando la información visible como una parte integral de su proceso de pensamiento en lugar de simplemente analizar lo que ven. Este cambio del reconocimiento pasivo al razonamiento visible activo puede resultar más significativo que cualquier puntaje de referencia, que representa el momento en que la IA comenzó a ver realmente el mundo a través de los ojos pensantes.