Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
La carrera para expandir los modelos de idiomas grandes (LLM) más allá del umbral de millones de token ha encendido un debate feroz en la comunidad de IA. Modelos como Minax-text-01 Cuenta con capacidad de 4 millones de token, y Géminis 1.5 Professional puede procesar hasta 2 millones de tokens simultáneamente. Ahora prometen aplicaciones que cambian el juego y pueden analizar bases de código enteras, contratos legales o trabajos de investigación en una sola llamada de inferencia.
En el núcleo de esta discusión es la duración del contexto: la cantidad de texto que puede procesar un modelo de IA y también recordar inmediatamente. Una ventana de contexto más larga permite una modelo de aprendizaje automático (ML) Para manejar mucha más información en una sola solicitud y scale back la necesidad de fragmentar documentos en subdocumentos o dividir conversaciones. Para el contexto, un modelo con una capacidad de 4 millones de token podría digerir 10,000 páginas de libros de una sola vez.
En teoría, esto debería significar una mejor comprensión y un razonamiento más sofisticado. ¿Pero este contexto masivo traduce Home windows al valor comercial del mundo actual?
A medida que las empresas sopesan los costos de escalar la infraestructura contra posibles ganancias en la productividad y la precisión, la pregunta sigue siendo: ¿estamos desbloqueando nuevas fronteras en el razonamiento de IA, o simplemente estirando los límites de la memoria de tokens sin mejoras significativas? Este artículo examina las compensaciones técnicas y económicas, los desafíos de la evaluación comparativa y los flujos de trabajo empresariales en evolución que dan forma al futuro de LLMS de contexto grande.
El aumento de los modelos de ventana de contexto grande: ¿exageración o valor actual?
Por qué las empresas de IA están corriendo para expandir las longitudes de contexto
Los líderes de IA como OpenAI, Google Deepmind y Minimax están en una carrera armamentista para expandir la longitud del contexto, lo que equivale a la cantidad de texto que un modelo de IA puede procesar de una vez. La promesa? Comprensión más profunda, menos alucinaciones y interacciones más perfectas.
Para las empresas, esto significa IA que puede analizar contratos completos, depurar grandes bases de código o resumir informes largos sin romper el contexto. La esperanza es que eliminar las soluciones de soluciones como fragmentación o generación de recuperación aumentada (RAG) podría hacer que los flujos de trabajo de IA sean más suaves y eficientes.
Resolver el problema de ‘aguja-in a-haystack’
El problema de la aguja en un-jaystack se refiere a la dificultad de AI para identificar información crítica (aguja) oculta dentro de conjuntos de datos masivos (Haystack). Los LLM a menudo se pierden detalles clave, lo que lleva a ineficiencias en:
- Búsqueda y recuperación de conocimiento: los asistentes de IA luchan por extraer los hechos más relevantes de los grandes repositorios de documentos.
- Authorized y cumplimiento: los abogados deben rastrear las dependencias de la cláusula en largos contratos.
- Análisis empresarial: los analistas financieros corren el riesgo de perder información essential enterrada en los informes.
Las ventanas de contexto más grandes ayudan a los modelos a retener más información y potencialmente reducir las alucinaciones. Ayudan a mejorar la precisión y también habilitan:
- Comprobaciones de cumplimiento del discurso cruzado: Un solo mensaje de 256k-token puede analizar un handbook de políticas completo contra la nueva legislación.
- Síntesis de literatura médica: investigadores Use 128k+ token Home windows para comparar los resultados del ensayo de drogas a través de décadas de estudios.
- Desarrollo de software program: la depuración mejora cuando la IA puede escanear millones de líneas de código sin perder dependencias.
- Investigación financiera: los analistas pueden analizar los informes completos de ganancias y los datos del mercado en una consulta.
- Atención al cliente: los chatbots con memoria más larga ofrecen más interacciones conscientes del contexto.
El aumento de la ventana de contexto también ayuda al modelo a referencia mejor detalles relevantes y scale back la probabilidad de generar información incorrecta o fabricada. Un estudio de 2024 Stanford descubrió que los modelos de 128k-token redujeron las tasas de alucinación en un 18% en comparación con los sistemas RAG al analizar los acuerdos de fusión.
Sin embargo, los primeros usuarios han reportado algunos desafíos: Investigación de JPMorgan Chase Demuestra cómo los modelos funcionan mal en aproximadamente el 75% de su contexto, con el rendimiento de las tareas financieras complejas colapsando a casi cero más allá de 32k tokens. Los modelos aún luchan ampliamente con el recuerdo de largo alcance, a menudo priorizando datos recientes sobre concepts más profundas.
Esto plantea preguntas: ¿una ventana de 4 millones de token realmente mejora el razonamiento, o es solo una expansión costosa de la memoria? ¿Cuánto de esta vasta entrada usa realmente el modelo? ¿Y los beneficios superan los crecientes costos computacionales?
Costo vs. rendimiento: trapo vs. grandes indicaciones: ¿Qué opción gana?
Las compensaciones económicas del uso de trapo
RAG combina el poder de las LLM con un sistema de recuperación para obtener información relevante de una base de datos externa o almacén de documentos. Esto permite que el modelo genere respuestas basadas en el conocimiento preexistente y los datos recuperados dinámicamente.
A medida que las empresas adoptan AI para tareas complejasenfrentan una decisión clave: use indicaciones masivas con grandes ventanas de contexto, o confíen en RAG para obtener información relevante dinámicamente.
- Grandes indicaciones: los modelos con grandes ventanas de tokens procesan todo en una sola pasada y reducen la necesidad de mantener sistemas de recuperación externos y capturar concepts de documentos cruzados. Sin embargo, este enfoque es computacionalmente costoso, con mayores costos de inferencia y requisitos de memoria.
- Rag: en lugar de procesar todo el documento a la vez, Rag recupera solo las porciones más relevantes antes de generar una respuesta. Esto scale back el uso y los costos del token, lo que lo hace más escalable para las aplicaciones del mundo actual.
Comparación de costos de inferencia de IA: recuperación de múltiples pasos versus indicadores individuales grandes
Si bien las grandes indicaciones simplifican los flujos de trabajo, requieren más potencia y memoria de GPU, lo que los hace costosos a escala. Los enfoques basados en RAG, a pesar de requerir múltiples pasos de recuperación, a menudo reducen el consumo basic de token, lo que lleva a menores costos de inferencia sin sacrificar la precisión.
Para la mayoría de las empresas, el mejor enfoque depende del caso de uso:
- ¿Necesita un análisis profundo de documentos? Los grandes modelos de contexto pueden funcionar mejor.
- ¿Necesita IA escalable y rentable para consultas dinámicas? El trapo es probablemente la elección más inteligente.
Una ventana de contexto grande es valiosa cuando:
- El texto completo debe analizarse a la vez (ex: revisiones de contrato, auditorías de código).
- Minimizar los errores de recuperación es crítico (ex: cumplimiento regulatorio).
- La latencia es menos preocupante que la precisión (ex: investigación estratégica).
Según Google Analysis, modelos de predicción de acciones que utilizan Home windows de 128k-token analizando 10 años de transcripciones de ganancias trapo superado por 29%. Por otro lado, las pruebas internas de Github Copilot mostraron que 2.3x Tarea más rápida finalización versus trapo para migraciones de monoreo.
Desglosando los rendimientos decrecientes
Los límites de los grandes modelos de contexto: latencia, costos y usabilidad
Si bien los grandes modelos de contexto ofrecen capacidades impresionantes, existen límites para cuánto contexto adicional es realmente beneficioso. A medida que se expanden las ventanas de contexto, entran en juego tres factores clave:
- LATENCIA: Cuantos más tokens procesen un modelo, más lenta será la inferencia. Las ventanas de contexto más grandes pueden conducir a retrasos significativos, especialmente cuando se necesitan respuestas en tiempo actual.
- Costos: con cada token adicional procesado, los costos computacionales aumentan. Escalar la infraestructura para manejar estos modelos más grandes puede volverse prohibitivamente costoso, especialmente para las empresas con cargas de trabajo de alto volumen.
- Usabilidad: a medida que crece el contexto, la capacidad del modelo para “centrarse” de manera efectiva en la información más relevante disminuye. Esto puede conducir a un procesamiento ineficiente donde los datos menos relevantes afectan el rendimiento del modelo, lo que resulta en rendimientos decrecientes tanto para la precisión como para la eficiencia.
Google Técnica de atención infini-infini busca compensar estas compensaciones almacenando representaciones comprimidas de contexto de longitud arbitraria con memoria limitada. Sin embargo, la compresión conduce a la pérdida de información, y los modelos luchan para equilibrar la información inmediata e histórica. Esto conduce a degradaciones del rendimiento y aumentos de costos en comparación con el trapo tradicional.
La carrera con el contexto de la carrera armamentista necesita dirección
Si bien los modelos 4M-Tourk son impresionantes, las empresas deben usarlos como herramientas especializadas en lugar de soluciones universales. El futuro radica en sistemas híbridos que eligen adaptativamente entre trapo y grandes indicaciones.
Las empresas deben elegir entre grandes modelos de contexto y RAG en función de la complejidad, el costo y la latencia del razonamiento. Las ventanas de contexto grandes son ideales para tareas que requieren una comprensión profunda, mientras que RAG es más rentable y eficiente para tareas más simples y objetivas. Las empresas deben establecer límites de costo claros, como $ 0.50 por tarea, ya que los modelos grandes pueden volverse costosos. Además, las grandes indicaciones son más adecuadas para las tareas fuera de línea, mientras que los sistemas de RAG se destacan en aplicaciones en tiempo actual que requieren respuestas rápidas.
Innovaciones emergentes como Gráfica Puede mejorar aún más estos sistemas adaptativos integrando gráficos de conocimiento con métodos tradicionales de recuperación de vectores que capturan mejor relaciones complejas, mejorando el razonamiento matizado y la precisión de la respuesta en hasta un 35% en comparación con los enfoques solo de vectores. Implementaciones recientes de compañías como Lettria han demostrado mejoras dramáticas en la precisión del 50% con el trapo tradicional a más del 80% utilizando Graphrag dentro de los sistemas de recuperación híbrida.
Como Yuri Kuratov advierte: “Expandir el contexto sin mejorar el razonamiento es como construir carreteras más amplias para automóviles que no pueden dirigir.“El futuro de la IA radica en modelos que realmente entienden las relaciones en cualquier tamaño de contexto.
Rahul Raja es ingeniero de software program de private en LinkedIn.
Advitya Gemawat es ingeniero de aprendizaje automático (ML) en Microsoft.