24.6 C
Colombia
domingo, julio 6, 2025

Los nuevos modelos AI GPT-4.1 de Openai se centran en la codificación


Openai lanzó el lunes una nueva familia de modelos llamado GPT-4.1. Sí, “4.1”, como si la nomenclatura de la compañía ya no fuera lo suficientemente confusa.

Está GPT-4.1, GPT-4.1 Mini y GPT-4.1 Nano, todo lo cual OpenAi cube “Excel” en la codificación e instrucción siguiente. Disponible a través de la API de Openai pero no ChatgptLos modelos multimodales tienen una ventana de contexto de 1 millón de token, lo que significa que pueden tomar aproximadamente 750,000 palabras de una vez (más tiempo que “guerra y paz”).

GPT-4.1 llega como rivales de OpenAI como Google y los esfuerzos antrópicos de tracción en los esfuerzos para construir modelos de programación sofisticados. El lanzado recientemente de Google Géminis 2.5 Professionalque también tiene una ventana de contexto de 1 millón de token, se ubica en alto en los puntos de referencia de codificación populares. También lo hacen los antrópicos Claude 3.7 soneto y startup de IA china V3 mejorado de Deepseek.

Es el objetivo de muchos gigantes tecnológicos, incluidos OpenAI, capacitar a modelos de codificación de IA capaces de realizar tareas complejas de ingeniería de software program. La gran ambición de Openai es crear un “ingeniero de software program de agente”, como CFO Sarah FRIRO PONTIRLO durante una cumbre tecnológica en Londres el mes pasado. La compañía afirma que sus modelos futuros podrán programar aplicaciones completas de extremo a extremo, manejando aspectos como garantía de calidad, pruebas de errores y redacción de documentación.

GPT-4.1 es un paso en esta dirección.

“Hemos optimizado GPT-4.1 para el uso del mundo actual en función de la retroalimentación directa para mejorar en las áreas de las que más les importa: la codificación frontend, hacer menos ediciones extrañas, siguientes formatos de manera confiable, adherirse a la estructura de respuesta y al pedido, un uso consistente de herramientas y más”, dijo un portavoz de OpenAI TechCrunch por correo electrónico. “Estas mejoras permiten a los desarrolladores construir agentes que sean considerablemente mejores en las tareas de ingeniería de software program del mundo actual”.

OpenAI afirma que el modelo GPT-4.1 completo supera a su GPT-4O y GPT-4O Mini Modelos en puntos de referencia de codificación, incluido SWE-Bench. Se cube que GPT-4.1 Mini y Nano son más eficientes y más rápidos a costa de cierta precisión, y Operai cube que GPT-4.1 Nano es su modelo más rápido y más barato de la historia.

GPT-4.1 cuesta $ 2 por millón de tokens de entrada y $ 8 por millón de tokens de producción. GPT-4.1 Mini son tokens de entrada de $ 0.40/m y tokens de salida de $ 1.60/m, y GPT-4.1 Nano es de $ 0.10/m de tokens de entrada y tokens de salida de $ 0.40/m.

Según las pruebas internas de OpenAI, GPT-4.1, que puede generar más tokens a la vez que GPT-4O (32,768 versus 16,384), obtuvo una puntuación entre 52% y 54.6% en el banco SWE verificado, un subconjunto de bancos SWE SWE SWE. (Openai señaló en una publicación de weblog que algunas soluciones a los problemas verificados de SWE-Bench no se pueden ejecutar en su infraestructura, de ahí el rango de puntajes). Esas cifras están ligeramente bajo las puntuaciones informadas por Google y Anthrope para Gemini 2.5 Professional (63.8%) y Claude 3.7 Sonnet (62.3%), respectivamente, en el mismo benchmark.

En una evaluación separada, Operai sondeó GPT-4.1 usando Video-MME, que está diseñado para medir la capacidad de un modelo para “comprender” el contenido en los movies. GPT-4.1 alcanzó una precisión del 72% en la categoría de video “Lengthy, sin subtítulos”, afirma OpenAi.

Si bien GPT-4.1 obtiene un puntaje razonable en los puntos de referencia y tiene un “corte de conocimiento” más reciente, dándole un mejor marco de referencia para los eventos actuales (hasta junio de 2024), es importante tener en cuenta que incluso algunos de los mejores modelos de hoy luchan con tareas que no harían tropezar a los expertos. Por ejemplo, muchos estudios tener se muestra Esos modelos de generación de códigos a menudo no logran solucionar, e incluso introducen, vulnerabilidades de seguridad y errores.

Openai también reconoce que GPT-4.1 se vuelve menos confiable (es decir, más possible para cometer errores) cuantos más tokens de entrada tenga que lidiar. En una de las propias pruebas de la compañía, OpenAI-MRCR, la precisión del modelo disminuyó de alrededor del 84% con 8,000 tokens a 50% con 1 millón de tokens. GPT-4.1 también tendió a ser más “literal” que GPT-4O, cube que la compañía, a veces, requiere indicaciones más específicas y explícitas.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles