Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Cogito profundouna nueva startup de investigación de IA con sede en San Francisco, surgió oficialmente de sigilo hoy con Cogito V1, una nueva línea de modelos de idiomas grandes de código abierto (LLMS) ajustados de Meta’s Llama 3.2 y equipado con capacidades de razonamiento híbrido, la capacidad de responder rápida e de inmediato, o “reflexionar” como la serie “O” de OpenAi y Deepseek R1.
La Compañía tiene como objetivo superar los límites de la IA más allá de las limitaciones actuales de los humanos-oversers al permitir que los modelos refinen e internalicen de forma iterativa sus propias estrategias de razonamiento mejoradas. En última instancia, se trata de desarrollar superinteligencia, IA más inteligente que todos los humanos en todos los dominios, sin embargo, la compañía cube que “todos los modelos que creamos serán de origen abierto”.
El CEO y cofundador de Deep Cogito, Drishan Arora, un ex ingeniero de software program senior de Google que cube que dirigió el modelado del modelo de idioma grande (LLM) para el producto de búsqueda generativo de Google-También se dijo en una publicación en X Son “los modelos abiertos más fuertes a su escala, incluidos los de Llama, Deepseek y Qwen”.
La línea de modelo inicial incluye cinco tamaños base: 3 mil millones, 8 mil millones, 14 mil millones, 32 mil millones y 70 mil millones de parámetros, disponibles ahora en la comunidad de intercambio de códigos de IA Cara abrazada, Ollama y a través de interfaces de programación de aplicaciones (API) en Fuegos artificiales y Juntos ai.
Están disponibles bajo el Términos de licencia de llamas lo que permite el uso comercial, por lo que las empresas de terceros podrían ponerlos a trabajar en productos pagados, hasta 700 millones de usuarios mensuales, momento en el cual necesitan obtener una licencia pagada de Meta.
La compañía planea lanzar modelos aún más grandes, hasta 671 mil millones de parámetros, en los próximos meses.
Arora describe el enfoque de capacitación de la Compañía, la destilación iterada y la amplificación (IDA), como una alternativa novedosa al aprendizaje tradicional de refuerzo de la retroalimentación humana (RLHF) o la destilación del mannequin maestro.
La concept central detrás de IDA es asignar más cómputo para un modelo para generar soluciones mejoradas, luego destile el proceso de razonamiento mejorado en los parámetros del modelo, creando efectivamente un circuito de retroalimentación para el crecimiento de la capacidad. Arora compara este enfoque de la estrategia de auto-juego de Google Alphago, aplicada al lenguaje pure.
Puntos de referencia y evaluaciones
La compañía compartió un amplio conjunto de resultados de evaluación que comparan los modelos Cogito con los compañeros de código abierto en conocimiento basic, razonamiento matemático y tareas multilingües. Los aspectos más destacados incluyen:
- Cogito 3B (estándar) supera Llama 3.2 3B en MMLU por 6.7 puntos porcentuales (65.4% frente a 58.7%), y en Helaswag por 18.8 puntos (81.1% frente a 62.3%).
- En modo de razonamiento, Cogito 3B puntajes 72.6% en MMLU y 84.2% en ARC, excediendo su propio rendimiento en modo estándar y mostrando el efecto de la autorreflexión basada en IDA.
- Cogito 8b (estándar) puntajes 80.5% en MMLU, superando Llama 3.1 8B por 12.8 puntos. También lidera por más de 11 puntos en MMLU-Professional y logra 88.7% en ARC.
- En modo de razonamiento, Cogito 8B logra 83.1% en MMLU y 92.0% en ARC. Supera Deepseek R1 Distill 8b En casi todas las categorías, excepto el punto de referencia de matemáticas, donde Cogito obtiene significativamente más bajos (60.2% frente a 80.6%).
- Cogito 14B y 32B Los modelos superan a Qwen2.5 contrapartes por alrededor de 2 a 3 puntos porcentuales en puntos de referencia agregados, con Cogito 32B (razonamiento) Alcanzar el 90.2% en MMLU y 91.8% en el punto de referencia de matemáticas.
- Cogito 70b (estándar) supera Llama 3.3 70b en MMLU por 6.4 puntos (91.7% frente a 85.3%) y excede Llama 4 Scout 109B en puntajes de referencia agregados (54.5% frente a 53.3%).
- Contra Deepseek R1 Distill 70b, Cogito 70b (razonamiento) Publica resultados más fuertes en puntos de referencia basic y multilingües, con un notable 91.0% en MMLU y 92.7% en MGSM.
Los modelos Cogito generalmente muestran su mayor rendimiento en el modo de razonamiento, aunque surgen algunas compensaciones, particularmente en matemáticas.
Por ejemplo, mientras que Cogito 70B (estándar) coincide o excede ligeramente a sus pares en Matemáticas y GSM8K, Cogito 70B (razonamiento) sigue DeepSeek R1 en matemáticas en más de cinco puntos porcentuales (83.3% vs. 89.0%).
Además de los puntos de referencia generales, Deep Cogito evaluó sus modelos en el rendimiento de llamadas de herramientas nativas, una prioridad creciente para agentes y sistemas integrados por API.
- Cogito 3B admite cuatro tareas de llamada de herramientas de forma nativa (easy, paralela, múltiple y paralelo-multiple), mientras que Llama 3.2 3B No admite la llamada de herramientas.
- Cogito 3B obtiene un 92.8% en llamadas de herramientas simples y más del 91% en múltiples llamadas de herramientas.
- Cogito 8B obtiene más del 89% en todos los tipos de llamadas de herramientas, un rendimiento significativamente superior Llama 3.1 8Bque varía entre 35% y 54%.
Estas mejoras se atribuyen no solo a los datos de arquitectura y capacitación de modelos, sino también al post-entrenamiento específico de tareas, que actualmente carecen muchos modelos de referencia.
Mirando hacia el futuro
Deep Cogito planea lanzar modelos a mayor escala en los próximos meses, incluidas las variantes de la mezcla de expertos a las escalas de parámetros 109b, 400B y 671B. La compañía también continuará actualizando sus puntos de management de modelo precise con capacitación extendida.
La Compañía posiciona su metodología IDA como un camino a largo plazo hacia la superación private escalable, eliminando la dependencia de los modelos de maestros humanos o estáticos.
Arora enfatiza que si bien los puntos de referencia de rendimiento son importantes, la utilidad y la adaptabilidad del mundo actual son las verdaderas pruebas para estos modelos, y que la compañía está justo al comienzo de lo que cree que es una curva de escala.
Las asociaciones de investigación e infraestructura de Deep Cogito incluyen equipos de Hugging Face, Runpod, Fireworks AI, Collectively AI y Ollama. Todos los modelos lanzados son de código abierto y están disponibles ahora.