21.1 C
Colombia
lunes, abril 21, 2025

Gemini 2.5 Flash de Google presenta ‘presupuestos de pensamiento’ que reducen los costos de IA en un 600% cuando se rechazó


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Google ha lanzado Géminis 2.5 Flashuna actualización importante a su línea de IA que brinda a las empresas y desarrolladores un management sin precedentes sobre cuánto “pensar” su IA realiza. El nuevo modelo, lanzado hoy en Vista previa a través de Google AI Studio y Vertex airepresenta un esfuerzo estratégico para ofrecer capacidades de razonamiento mejoradas al tiempo que mantiene los precios competitivos en el mercado de IA cada vez más lleno de gente.

El modelo presenta lo que Google llama un “Presupuesto de pensamiento” – Un mecanismo que permite a los desarrolladores especificar cuánto poder computacional debe asignarse al razonamiento a través de problemas complejos antes de generar una respuesta. Este enfoque tiene como objetivo abordar una tensión elementary en el mercado de IA precise: el razonamiento más sofisticado generalmente tiene costo de una mayor latencia y precios.

“Sabemos que el costo y la latencia son importantes para una serie de casos de uso de desarrolladores, por lo que queremos ofrecer a los desarrolladores la flexibilidad para adaptar la cantidad de pensamiento que hace el modelo, dependiendo de sus necesidades”, dijo Tulsee Doshi, directora de productos de los modelos de Gemini en Google Deepmind, en una entrevista exclusiva con VentureBeat.

Esta flexibilidad revela el enfoque pragmático de Google para la implementación de la IA a medida que la tecnología se integra cada vez más en aplicaciones comerciales donde la previsibilidad de costos es esencial. Al permitir que la capacidad de pensamiento se encienda o desactive, Google ha creado lo que llama su “primer modelo de razonamiento totalmente híbrido”.

Pague solo por la capacidad intelectual que necesita: dentro del nuevo modelo de precios de IA de Google

La nueva estructura de precios resalta el costo del razonamiento en los sistemas de IA actuales. Al usar Géminis 2.5 Flashlos desarrolladores pagan $ 0.15 por millón de tokens por aportes. Los costos de producción varían dramáticamente en función de la configuración de razonamiento: $ 0.60 por millón de tokens con el pensamiento desactivado, saltando a $ 3.50 por millón de tokens con razonamiento habilitado.

Esta diferencia de precio de casi seis veces para las salidas razonadas refleja la intensidad computacional del proceso de “pensamiento”, donde el modelo evalúa múltiples rutas y consideraciones potenciales antes de generar una respuesta.

“Los clientes pagan por cualquier tokens de pensamiento y producción que genera el modelo”, dijo Doshi a VentureBeat. “En AI Studio UX, puede ver estos pensamientos antes de una respuesta. En la API, actualmente no proporcionamos acceso a los pensamientos, pero un desarrollador puede ver cuántas fichas se generaron”.

El presupuesto de pensamiento se puede ajustar de 0 a 24,576 tokens, operando como un límite máximo en lugar de una asignación fija. Según Google, el modelo determina de manera inteligente cuánto de este presupuesto utilizar en función de la complejidad de la tarea, no es necesario preservar los recursos cuando el razonamiento elaborado no es necesario.

Cómo Gemini 2.5 Flash se acumula: resultados de referencia contra los principales modelos de IA

Reclamos de Google Géminis 2.5 Flash Demuestra un rendimiento competitivo en los puntos de referencia clave mientras mantiene un tamaño de modelo más pequeño que las alternativas. En El último examen de la humanidaduna prueba rigurosa diseñada para evaluar el razonamiento y el conocimiento, 2.5 flash obtuvo un 12.1%, superando a los antrópicos Claude 3.7 soneto (8.9%) y Deepseek r1 (8.6%), aunque no se lanzó recientemente O4-Mini (14.3%).

El modelo también publicó resultados sólidos en puntos de referencia técnicos como Diamante gpqa (78.3%) y Exámenes de matemáticas de AIME (78.0% en las pruebas de 2025 y 88.0% en las pruebas de 2024).

“Las empresas deben elegir 2.5 flash porque proporciona el mejor valor para su costo y velocidad”, dijo Doshi. “Es particularmente fuerte en relación con los competidores en matemáticas, razonamiento multimodal, contexto largo y varias otras métricas clave”.

Los analistas de la industria señalan que estos puntos de referencia indican que Google está reduciendo la brecha de rendimiento con los competidores al tiempo que mantiene una ventaja de precios, una estrategia que puede resonar con los clientes empresariales que observan sus presupuestos de IA.

Good vs. Speedy: ¿Cuándo necesita pensar profundamente tu IA?

La introducción del razonamiento ajustable representa una evolución significativa en cómo las empresas pueden implementar IA. Con los modelos tradicionales, los usuarios tienen poca visibilidad o management sobre el proceso de razonamiento interno del modelo.

El enfoque de Google permite a los desarrolladores optimizar para diferentes escenarios. Para consultas simples como la traducción del idioma o la recuperación de información básica, el pensamiento se puede deshabilitar para una máxima eficiencia de rentabilidad. Para tareas complejas que requieren un razonamiento de varios pasos, como la resolución matemática de problemas o el análisis matizado, la función de pensamiento puede habilitarse y ajustarse.

Una innovación clave es la capacidad del modelo para determinar cuánto razonamiento es apropiado en función de la consulta. Google ilustra esto con ejemplos: una pregunta easy como “¿Cuántas provincias tiene Canadá?” requiere un razonamiento mínimo, mientras que una pregunta compleja de ingeniería sobre los cálculos de estrés del haz involucraría automáticamente procesos de pensamiento más profundos.

“La integración de las capacidades de pensamiento en nuestros modelos Gemini de línea principal, combinada con mejoras en todos los ámbitos, ha llevado a respuestas de mayor calidad”, dijo Doshi. “Estas mejoras son ciertas en todos los puntos de referencia académicos, incluido SimpleQA, que mide la fáctica”.

Semana de IA de Google: acceso gratuito a los estudiantes y generación de movies se unen al lanzamiento de 2.5 Flash

El lanzamiento de Géminis 2.5 Flash Viene durante una semana de movimientos agresivos de Google en el espacio de IA. El lunes, la compañía se implementó VEO 2 Capacidades de generación de movies a los suscriptores avanzados de Gemini, lo que permite a los usuarios crear videoclips de ocho segundos a partir de indicaciones de texto. Hoy, junto con el anuncio de 2.5 flash, Google reveló que Todos los estudiantes universitarios de EE. UU. Recibirán acceso gratuito a Gemini avanzado hasta la primavera de 2026 – Un movimiento interpretado por los analistas como un esfuerzo para desarrollar lealtad entre los futuros trabajadores del conocimiento.

Estos anuncios reflejan la estrategia múltiple de Google para competir en un mercado dominado por el ChatGPT de OpenAi, que según los informes se ve sobre 800 millones de usuarios semanales en comparación con el estimado de Géminis 250-275 millones de usuarios mensualessegún análisis de terceros.

El modelo Flash 2.5, con su enfoque explícito en la eficiencia de rentabilidad y la personalización del rendimiento, parece diseñado para atraer particularmente a los clientes empresariales que necesitan administrar cuidadosamente los costos de implementación de la IA al tiempo que acceden a capacidades avanzadas.

“Estamos muy emocionados de comenzar a recibir comentarios de los desarrolladores sobre lo que están construyendo con Gemini Flash 2.5 y cómo están usando presupuestos de pensamiento”, dijo Doshi.

Más allá de la vista previa: lo que las empresas pueden esperar a medida que madura Gemini 2.5 Flash

Si bien este lanzamiento está en vista previa, el modelo ya está disponible para que los desarrolladores comiencen a construir, aunque Google no ha especificado una línea de tiempo para la disponibilidad common. La compañía indica que continuará refinando las capacidades de pensamiento dinámico basados ​​en la retroalimentación del desarrollador durante esta fase de vista previa.

Para los adoptantes de IA Enterprise, este lanzamiento representa una oportunidad para experimentar con enfoques más matizados para el despliegue de IA, lo que potencialmente asigna más recursos computacionales a tareas de alto riesgo mientras conserva los costos en aplicaciones de rutina.

El modelo también está disponible para los consumidores a través del Aplicación Géminisdonde aparece como “2.5 flash (experimental)” en el menú desplegable del modelo, reemplazando la opción de pensamiento 2.0 (experimental) anterior. Esta implementación orientada al consumidor sugiere que Google está utilizando el ecosistema de aplicaciones para recopilar comentarios más amplios sobre su arquitectura de razonamiento.

A medida que la IA se integra cada vez más en los flujos de trabajo de negocios, el enfoque de Google con razonamiento personalizable refleja un mercado en maduración donde la optimización de costos y el ajuste del rendimiento se están volviendo tan importantes como las capacidades sin procesar, lo que indica una nueva fase en la comercialización de tecnologías generativas de IA.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles