Como Modelos de idiomas grandes (LLM) evoluciona rápidamente, también lo hace su promesa como poderosos asistentes de investigación. Cada vez más, no solo están respondiendo preguntas fácticas simples, sino que abordan tareas de “investigación profunda”, que implican un razonamiento de varios pasos, evaluar información conflictiva, obtener datos de toda la net y sintetizarlo en un resultado coherente.
Esta capacidad emergente ahora está siendo comercializada bajo diferentes marcas por los laboratorios principales: Openai lo llama “investigación profunda”, antrópico se refiere a él como “pensamiento extendido”, Gemini de Google ofrece características “de búsqueda + professional” y la perplejidad etiqueta su “búsqueda profesional” o “investigación profunda”. Pero, ¿qué tan efectivas son estas ofertas en la práctica? Un nuevo informe de Futurosearchtitulado Deep Analysis Bench (DRB): Evaluación de agentes de investigación netofrece la evaluación más rigurosa hasta la fecha, y los resultados revelan tanto capacidades impresionantes como deficiencias críticas.
¿Qué es el banco de investigación profunda?
Creado por el equipo de FutureSearch, Deep Analysis Bench es un punto de referencia meticulosamente construido diseñado para evaluar el desempeño de los agentes de IA en tareas de investigación basadas en la net de múltiples pasos. Estas no son preguntas simples con respuestas directas: reflejan los desafíos desordenados y abiertos que enfrentan los analistas, los encargados de formular políticas e investigadores en entornos del mundo actual.
El punto de referencia incluye 89 tareas distintas en 8 categorías como:
- Encontrar número: por ejemplo, “¿Cuántos retiros de dispositivos médicos de la FDA Clase II se produjeron?”
- Validar reclamo: por ejemplo, “¿Chatgpt 10x es más intensivo en energía que la búsqueda de Google?”
- Compilar el conjunto de datos: por ejemplo, “Tendencias laborales para desarrolladores de software program de EE. UU. De 2019-2023”
Cada tipo de tarea está cuidadosamente estructurado con respuestas verificadas por humanos y se evalúa utilizando un conjunto de datos congelado de páginas net raspadas, conocidas como retroSearch. Esto garantiza la consistencia entre las evaluaciones del modelo, evitando el estado fluctuante de la net en vivo.
La arquitectura del agente: reaccionar y retroSearch
En el corazón de Deep Analysis Bench se encuentra la arquitectura React, abreviatura de “Razón + Acto”. Este método imita cómo un investigador humano podría abordar un problema: pensar en la tarea, tomar una acción como realizar una búsqueda en la net, observar los resultados y luego decidir si iterar o concluir.
Mientras que los modelos anteriores siguen este bucle explícitamente, los modelos de “pensamiento” más nuevos a menudo agilizan el proceso, incrustando el razonamiento de manera más fluida en sus acciones. Para garantizar la consistencia entre las evaluaciones, DRB presenta retroSearch, una versión estática personalizada de la net. En lugar de confiar en Web en vivo, lo que cambia constantemente, los agentes aprovechan un archivo curado de páginas net raspadas utilizando herramientas como Serper, Dramaturgoy Craperapi. La escala es impresionante: para las tareas de alta complejidad como “recolectar evidencia”, la retrospearch puede proporcionar acceso a más de 189,000 páginas, todas congeladas en el tiempo, asegurando un entorno de prueba justo y replicable.
¿Qué agentes de IA funcionan mejor?
Entre todos los contendientes, el O3 de Openai surgió como el mejor desempeño, obteniendo 0.51 de un posible 1.0 en el banco de investigación profunda. Si bien eso puede sonar modesto, es importante comprender la dificultad del punto de referencia: debido a la ambigüedad en las definiciones de tareas y la puntuación, incluso un agente impecable probablemente superaría alrededor de 0.8, lo que los investigadores llaman el “techo de ruido”. En otras palabras, incluso los mejores modelos de hoy aún no alcanzan investigadores humanos metódicos bien informados.
Aún así, la tabla de clasificación ofrece concepts reveladoras. O3 no solo lideró el paquete, sino que lo hizo con velocidad y consistencia, mostrando un fuerte rendimiento en casi todos los tipos de tareas. El soneto Claude 3.7 de Anthrope siguió de cerca, demostrando versatilidad tanto en sus modos de “pensamiento” como de “no pensamiento”. Gemini 2.5 Professional, el modelo insignia de Google, se destacó por su capacidad para manejar tareas que requieren planificación estructurada y razonamiento paso a paso. Mientras tanto, el peso abierto Deepseek-R1 ofreció una agradable sorpresa, manteniendo el ritmo de GPT-4 Turbo y reduciendo la brecha de rendimiento entre los modelos abiertos y cerrados.
En basic, surgió un patrón claro: los modelos más nuevos, “habilitados para pensar” superaron consistentemente a sus homólogos anteriores, y los modelos de código cerrado mantuvieron una ventaja notable sobre las alternativas de peso abierto.
¿Dónde luchan los agentes?
Leer a través de los patrones de falla destacados en el informe de Deep Analysis Bench se sintió sorprendentemente acquainted. Uno de los aspectos más frustrantes que he encontrado personalmente, especialmente durante las largas sesiones de investigación o creación de contenido, es cuando un agente de IA simplemente olvida lo que estábamos haciendo. A medida que la ventana de contexto se extiende, el modelo a menudo comienza a perder el hilo: los detalles clave se desvanecen, los objetivos se confunden y de repente, las respuestas se sienten desarticuladas o sin rumbo. En algún momento, he aprendido que a menudo es mejor reducir las pérdidas y comenzar desde cero, incluso si eso significa tirar todo lo que se ha generado hasta ahora.
Ese tipo de olvido no es solo anecdótico, es el predictor más significativo del fracaso en la evaluación del banco de investigación profunda. Pero no es el único problema recurrente. El informe también destaca cómo algunos modelos caen en el uso de la herramienta repetitiva, ejecutando la misma búsqueda una y otra vez como si estuvieran atascadas en un bucle. Otros muestran una mala consulta de consultas, una pareja de palabras clave perezosamente en lugar de pensar críticamente sobre cómo buscar de manera efectiva. Y con demasiada frecuencia, los agentes son víctimas de conclusiones prematuras, entregando una respuesta medio formada que técnicamente marca la casilla pero no alcanza una concept actual.
Incluso entre los principales modelos, las diferencias son marcadas. GPT-4 Turbo, por ejemplo, mostró una tendencia notable a olvidar pasos anteriores, mientras que Deepseek-R1 period más possible que alucinar o inventar el sonido believable, pero incorrecto, la información. En todos los ámbitos, los modelos frecuentemente no pudieron verificar las fuentes o validar los hallazgos antes de finalizar su salida. Para cualquiera que haya confiado en la IA para un trabajo serio, estos problemas se sentirán demasiado familiarizados, y subrayan cuán lejos aún tenemos que llegar a la construcción de agentes que realmente puedan pensar e investigar como humanos.
¿Qué pasa con el rendimiento basado en la memoria?
Curiosamente, Deep Analysis Bench también evaluó lo que llama agentes “Toolress”: modelos de lenguaje que operan sin acceso a herramientas externas, como búsqueda en la net o recuperación de documentos. Estos agentes confían completamente en sus datos y memoria de entrenamiento interno, generando respuestas basadas únicamente en lo que han aprendido anteriormente durante la capacitación. En la práctica, esto significa que no pueden buscar nada o verificar la información, adivinan en base a lo que “recuerdan”.
Sorprendentemente, estos agentes de los toldosas se desempeñaron casi tan bien como los agentes de investigación completos en ciertas tareas. Por ejemplo, en la tarea de reclamo de validar, donde el objetivo es evaluar la plausibilidad de una declaración, obtuvieron 0.61, casi coincidiendo con el promedio de 0.62 de agentes habilitados para herramientas. Esto sugiere que modelos como O3 y Claude tienen fuertes antecedentes internos y, a menudo, pueden reconocer la veracidad de las afirmaciones comunes sin necesidad de buscar en la net.
Pero en tareas más exigentes, como el número de deriva, lo que requiere unir múltiples valores de varias fuentes, o reunir evidencia, que depende de encontrar y evaluar diversos hechos en el contexto, estos modelos tocados se desmoronaron por completo. Sin información nueva o capacidades de búsqueda en tiempo actual, simplemente carecían de los medios para producir respuestas precisas o integrales.
Este contraste destaca un matiz importante: si bien los LLM de hoy pueden simular mucho “saber”, la investigación profunda no solo del retiro, sino del razonamiento con información actualizada y verificable, algo que solo los agentes acuáticos de herramientas realmente pueden entregar realmente.
Pensamientos finales
El informe de DRB deja en claro una cosa: si bien los mejores agentes de IA de hoy pueden superar a los humanos promedio en tareas estrechamente definidas, todavía se quedan atrás de investigadores generalistas calificados, especialmente cuando se trata de planificar estratégicamente, adaptar el proceso medio y razonamiento con matices.
Esta brecha se vuelve especialmente obvia durante las sesiones largas o complejas, algo que he experimentado de primera mano, donde un agente pierde gradualmente el seguimiento del propósito de la tarea, lo que lleva a un desglose frustrante en coherencia y utilidad.
Que hace Banco de investigación profunda Tan valioso es que no solo prueba el conocimiento a nivel de superficie: sondea la intersección del uso de herramientas, la memoria, el razonamiento y la adaptación, ofreciendo un análogo más cercano a la investigación del mundo actual que los puntos de referencia como MMLU o GSM8K.
A medida que los LLM continúan integrándose en un trabajo de conocimiento serio, Futurosearch Herramientas como DRB serán esenciales para evaluar no solo lo que estos sistemas saben, sino qué tan bien funcionan.