Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información
A medida que los sistemas de IA logran actuación sobrehumana En tareas cada vez más complejas, la industria se debate si son posibles modelos más grandes o si la innovación debe tomar un camino diferente.
El enfoque common para el desarrollo de modelos de lenguaje grande (LLM) ha sido que cuanto más grande, mejor y que el rendimiento aumenta con más datos y más potencia informática. Sin embargo, las discusiones recientes en los medios se han centrado en cómo los LLM se están acercando a sus límites. “¿La IA está chocando contra una pared?” El borde interrogado, mientras Reuters reportado que “OpenAI y otros buscan un nuevo camino hacia una IA más inteligente a medida que los métodos actuales encuentran limitaciones”.
La preocupación es que la escala, que ha impulsado avances durante años, no se extienda a la próxima generación de modelos. Los informes sugieren que el desarrollo de modelos de vanguardia como GPT-5, que superan los límites actuales de la IA, puede enfrentar desafíos debido a la disminución de las ganancias de rendimiento durante el entrenamiento previo. La información informó sobre estos desafíos en OpenAI y Bloomberg cubierto noticias similares en Google y Anthropic.
Este problema ha generado preocupación de que estos sistemas puedan estar sujetos a la ley de rendimientos decrecientes, donde cada unidad agregada de insumo produce ganancias progresivamente menores. A medida que los LLM crecen, los costos de obtener datos de capacitación de alta calidad y escalar la infraestructura aumentan exponencialmente, lo que cut back los retornos de la mejora del rendimiento en nuevos modelos. Este desafío se ve agravado por la disponibilidad limitada de nuevos datos de alta calidad, ya que gran parte de la información accesible ya se ha incorporado a los conjuntos de datos de capacitación existentes.
Esto no significa el fin de ganancias de rendimiento para la IA. Simplemente significa que para sostener el progreso, se necesita más ingeniería a través de la innovación en la arquitectura de modelos, técnicas de optimización y uso de datos.
Aprendiendo de la ley de Moore
Un patrón comparable de rendimientos decrecientes apareció en la industria de los semiconductores. Durante décadas, la industria se había beneficiado de la Ley de Moore, que predecía que la cantidad de transistores se duplicaría cada 18 a 24 meses, impulsando mejoras dramáticas en el rendimiento a través de diseños más pequeños y eficientes. Esto también eventualmente tuvo rendimientos decrecientes, comenzando en algún lugar entre 2005 y 2007 debido a Escala Dennard – el principio de que la reducción de los transistores también cut back el consumo de energía – habiendo alcanzado sus límites que alimentaron las predicciones del muerte de la ley de Moore.
Vi de cerca este problema cuando trabajé con AMD entre 2012 y 2022. Este problema no significó que los semiconductores (y, por extensión, los procesadores de computadora) dejaran de lograr mejoras de rendimiento de una generación a la siguiente. Sí significó que las mejoras provinieron más de diseños de chiplets, memoria de gran ancho de banda, conmutadores ópticos, más memoria caché y arquitectura informática acelerada que de la reducción de transistores.
Nuevos caminos para el progreso
Ya se están observando fenómenos similares en LLM actuales. Los modelos de IA multimodal como GPT-4o, Claude 3.5 y Gemini 1.5 han demostrado el poder de integrar la comprensión de texto e imágenes, lo que permite avances en tareas complejas como el análisis de video y los subtítulos de imágenes contextuales. Un mayor ajuste de los algoritmos tanto para el entrenamiento como para la inferencia conducirá a mayores ganancias de rendimiento. Las tecnologías de agentes, que permiten a los LLM realizar tareas de forma autónoma y coordinarse sin problemas con otros sistemas, pronto ampliarán significativamente sus aplicaciones prácticas.
Los futuros avances en los modelos podrían surgir de uno o más diseños de arquitectura de IA híbrida que combinen el razonamiento simbólico con redes neuronales. El modelo de razonamiento o1 de OpenAI ya muestra el potencial para la integración del modelo y la extensión del rendimiento. Si bien recién ahora está saliendo de su etapa inicial de desarrollo, computación cuántica Es prometedor para acelerar el entrenamiento y la inferencia de IA al abordar los cuellos de botella computacionales actuales.
Es poco possible que el muro de escala percibido ponga fin a ganancias futuras, ya que la comunidad de investigación de IA ha demostrado constantemente su ingenio para superar desafíos y desbloquear nuevas capacidades y avances en el rendimiento.
De hecho, no todo el mundo está de acuerdo en que exista siquiera un muro de escalada. El director ejecutivo de OpenAI, Sam Altman, fue conciso en sus opiniones: “No hay muro”.

Hablando sobre el “Diario de un director ejecutivo” podcast, ex director ejecutivo de Google y coautor de Génesis Eric Schmidt esencialmente estuvo de acuerdo con Altman y dijo que no cree que exista un muro para escalar; al menos no lo habrá en los próximos cinco años. “En cinco años, tendrás dos o tres vueltas más de manivela de estos LLM. Cada una de estas manivelas parece tener un issue de dos, un issue de tres, un issue de cuatro de capacidad, así que digamos que girar la manivela en todos estos sistemas se volverá 50 o 100 veces más potente”, dijo.
Los principales innovadores en IA siguen siendo optimistas sobre el ritmo del progreso, así como sobre el potencial de nuevas metodologías. Este optimismo es evidente en un conversación reciente en “Podcast de Lenny” con el CPO de OpenAI, Kevin Weil, y el CPO de Anthropic, Mike Krieger.

En esta discusión, Krieger describió que en lo que OpenAI y Anthropic están trabajando hoy “parece mágico”, pero reconoció que en sólo 12 meses, “miraremos hacia atrás y diremos: ¿pueden creer que usamos esa basura? … Así de rápido [AI development] se está moviendo”.
Es cierto: se siente como magia, como lo experimenté recientemente cuando usé OpenAI. Modo de voz avanzado. Hablar con ‘Juniper’ fue completamente pure y fluido, mostrando cómo la IA está evolucionando para comprender y responder con emoción y matices en conversaciones en tiempo actual.
Krieger también analiza el reciente modelo o1, refiriéndose a él como “una nueva forma de escalar la inteligencia, y sentimos que estamos apenas en el comienzo”. Y añadió: “Los modelos se volverán más inteligentes a un ritmo acelerado”.
Estos avances esperados sugieren que, si bien los enfoques tradicionales de escalamiento pueden enfrentar o no rendimientos decrecientes en el corto plazo, el campo de la IA está preparado para avances continuos a través de nuevas metodologías e ingeniería creativa.
¿Importa siquiera la escala?
Si bien los desafíos de escala dominan gran parte del discurso precise sobre los LLM, estudios recientes sugieren que los modelos actuales ya son capaces de lograr resultados extraordinarios, lo que plantea una pregunta provocativa sobre si una mayor escala es importante.
A estudio reciente pronosticó que ChatGPT ayudaría a los médicos a realizar diagnósticos cuando se les presenten casos complicados de pacientes. Realizado con una versión anterior de GPT-4, el estudio comparó las capacidades de diagnóstico de ChatGPT con las de los médicos con y sin ayuda de IA. Un resultado sorprendente reveló que ChatGPT por sí solo superó sustancialmente a ambos grupos, incluidos los médicos que utilizan la ayuda de IA. Hay varias razones para esto, desde la falta de comprensión de los médicos sobre cómo utilizar mejor el robotic hasta su creencia de que su conocimiento, experiencia e intuición eran intrínsecamente superiores.
Este no es el primer estudio que muestra que los bots logran resultados superiores en comparación con los profesionales. VentureBeat informó en un estudio realizado a principios de este año que demostró que los LLM pueden realizar análisis de estados financieros con una precisión que rivaliza, e incluso supera, a la de los analistas profesionales. También utilizando GPT-4, otro objetivo period predecir el crecimiento futuro de las ganancias. GPT-4 logró una precisión del 60 % en la predicción de la dirección de las ganancias futuras, cifra notablemente superior al rango del 53 al 57 % de las previsiones de los analistas humanos.
Cabe destacar que ambos ejemplos se basan en modelos que ya están obsoletos. Estos resultados subrayan que incluso sin nuevos avances en escalamiento, los LLM existentes ya son capaces de superar a los expertos en tareas complejas, desafiando las suposiciones sobre la necesidad de seguir escalando para lograr resultados impactantes.
Escalamiento, habilidad o ambos
Estos ejemplos muestran que los LLM actuales ya son muy capaces, pero la ampliación por sí sola puede no ser el único camino a seguir para la innovación futura. Pero con una mayor escalabilidad posible y otras técnicas emergentes que prometen mejorar el rendimiento, el optimismo de Schmidt refleja el rápido ritmo del avance de la IA, lo que sugiere que en sólo cinco años, los modelos podrían evolucionar hasta convertirse en eruditos, respondiendo sin problemas preguntas complejas en múltiples campos.
Ya sea a través de escalamiento, habilidades o metodologías completamente nuevas, la próxima frontera de la IA promete transformar no solo la tecnología en sí, sino su papel en nuestras vidas. El desafío que tenemos por delante es garantizar que el progreso siga siendo responsable, equitativo y impactante para todos.
Gary Grossman es vicepresidente ejecutivo de práctica tecnológica en Edelman y líder international del Centro de Excelencia de IA de Edelman.
Tomadores de decisiones de datos
¡Bienvenido a la comunidad VentureBeat!
DataDecisionMakers es el lugar donde los expertos, incluidos los técnicos que trabajan con datos, pueden compartir conocimientos e innovación relacionados con los datos.
Si desea leer sobre concepts de vanguardia e información actualizada, mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DataDecisionMakers.
Incluso podrías considerar contribuyendo con un artículo propio!