22.8 C
Colombia
sábado, julio 5, 2025

La startup de IA de IA capacitada éticamente lanza nuevos modelos de razonamiento pequeños optimizados para trapo con citas incorporadas


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Startup francesa de IA Pleias hizo olas a fines del año pasado con el Lanzamiento de su familia Pleias 1.0 de modelos de lenguaje pequeño y capacitado éticamente – Entre los primeros y únicos hasta la fecha que se construirán por completo en raspar los datos “abiertos”, es decir, los datos explícitamente etiquetados como dominio público, código abierto o sin licencia y no tienen derechos de autor.

Ahora la compañía tiene anunció el lanzamiento de dos modelos de razonamiento de pequeña escala de código abierto diseñados específicamente para la generación de recuperación acuática (RAG), síntesis de citas y salida multilingüe estructurada.

El lanzamiento incluye dos modelos principales: Pleias-Rag-350m y Pleias-Rag-1b, cada uno también disponible en formato GGUF optimizado para CPU, lo que hace un whole de cuatro variantes listas para la implementación.

Todos se basan en Pleias 1.0, y pueden usarse de forma independiente o en conjunto con otros LLM que la organización ya puede implementar. Todos parecen estar disponibles bajo una licencia de código abierto de Apache 2.0 permisivo, lo que significa que ellos son Elegible para que las organizaciones tomen, modifiquen e implementen para casos de uso comercial.

El trapo, como recordará, es la técnica ampliamente utilizada que las empresas y las organizaciones pueden implementar para enganchar un modelo de idioma grande de IA (LLM) como GPT-4O de Openai, Gemini 2.5 Flash de Google, Sonnet Claude de Anthrope 3.7 o Command-A de Cohereo alternativas de código abierto como Llama 4 y Deepseek V3 a bases de conocimiento externas, como documentos empresariales y almacenamientos en la nube.

Esto a menudo es necesario para las empresas que desean construir chatbots y otras aplicaciones de IA que hacen referencia a sus políticas internas o catálogos de productos (una alternativa, lo que provoca un contexto largo con toda la información necesaria, puede no ser adecuado para casos de uso empresarial donde la seguridad y los costos de transmisión por prueba son preocupaciones).

La familia del modelo Pleias-Rag es el último esfuerzo para cerrar la brecha entre la precisión y la eficiencia en los modelos de lenguas pequeñas.

Estos modelos están dirigidos a empresas, desarrolladores e investigadores que buscan alternativas rentables a los modelos de idiomas a gran escala sin comprometer la trazabilidad, las capacidades multilingües o los flujos de trabajo de razonamiento estructurado.

La base de usuarios objetivo es en realidad el continente en casa de Pleias Europa, como dijo el cofundador Alexander Doria a VentureBeat a través del mensaje directo en la purple social X:

“Una motivación principal ha sido la dificultad de escalar aplicaciones de trapo en Europa. La mayoría de las organizaciones privadas tienen pequeños GPU (puede haber cambiado pero no hace mucho tiempo menos del 2% de todo [Nvidia] H100 [GPUs] estaban en Europa). Y sin embargo, simultáneamente, existen un fuerte incentivo para el auto-anfitrión por razones reguladas, incluido GDPR.

Los SLM han progresado significativamente durante el año pasado, sin embargo, con demasiada frecuencia se conciben como ‘mini chatbots’ y hemos observado una caída significativa de rendimiento en los idiomas no ingleses, tanto en términos de comprensión de la fuente como de calidad de la generación de texto. Así que hemos estado satisfechos de alcanzar la mayoría de nuestros objetivos:

  • Una alternativa actual a los modelos 7-8B para RAG incluso en CPU y otras infras restantes.
  • Modelos totalmente verificables que vienen con soporte de citas.
  • Preservación del rendimiento del idioma europeo “.

Sin embargo, por supuesto, los modelos que son de código abierto bajo la licencia Apache 2.0 significa que cualquiera podría tomarlos y usarlos libremente en cualquier parte del mundo.

Centrado en la base, las citas y los hechos

Una característica clave de los nuevos modelos Pleias-Rag es su soporte nativo para la cita de origen con citas literal, totalmente integradas en el proceso de inferencia del modelo.

A diferencia de los métodos de cita post-hoc o las tuberías de fragmentación externa, los modelos Pleias-Rag generan citas directamente, utilizando una sintaxis inspirada en el formato de referencia de Wikipedia.

Este enfoque permite fragmentos de citas más cortos y legibles mientras se mantiene la verificabilidad.

La conexión a tierra de la cita juega un papel funcional en los entornos regulados.

Para sectores como la atención médica, authorized y las finanzas, donde la toma de decisiones debe ser documentada y rastreable, estas referencias incorporadas ofrecen un camino directo a la auditabilidad. Pleias posiciona esta opción de diseño como un imperativo ético, alineándose con el aumento de las demandas regulatorias de IA explicable.

Proto agente?

Los modelos Pleias-Rag se describen como “proto-agénticos”: pueden evaluar de forma autónoma si una consulta es comprensible, determinar si es trivial o compleja y decidir si responder, reformular o rechazar según la adecuación de la fuente.

Su salida estructurada incluye informes de detección de idiomas, consulta y análisis de origen, y una respuesta razonada.

A pesar de su tamaño relativamente pequeño (Pleias-Rag-350m tiene solo 350 millones de parámetros), los modelos exhiben un comportamiento tradicionalmente asociado con sistemas de agente más grandes.

Según Pleias, estas capacidades provienen de una tubería especializada de entrenamiento medio que combina la generación de datos sintéticos con indicaciones de razonamiento iterativo.

Pleias-RAG-350M está explícitamente diseñado para entornos restringidos. Se desempeña bien en las CPU estándar, incluida la infraestructura de clase móvil.

Según los puntos de referencia internos, la versión GGUF no cuidada produce salidas de razonamiento completas en aproximadamente 20 segundos en configuraciones de 8 GB de RAM. Su pequeña huella lo coloca en un nicho con muy pocos competidores, como Qwen-0.5 y SMollm, pero con un énfasis mucho más fuerte en la síntesis de fuentes estructuradas.

Rendimiento competitivo en todas las tareas e idiomas

En las evaluaciones de referencia, Pleias-Rag-350m y Pleias-Rag-1b superan a la mayoría de los modelos de peso abierto bajo 4 mil millones de parámetros, incluidos Llama-3.1-8b y Qwen-2.5-7b, en tareas como Hotpotqa, 2wikimultihopqa y Musique.

Estos puntos de referencia de rag múltiples de salto prueban la capacidad del modelo para razonar en múltiples documentos e identificar distractores, requisitos comunes en los sistemas de conocimiento de grado empresarial.

La fuerza de los modelos se extiende a escenarios multilingües. En los conjuntos de referencia traducidos en francés, alemán, español e italiano, los modelos Pleias muestran una degradación insignificante en el rendimiento.

Esto los distingue de otros SLM, que generalmente experimentan una pérdida de rendimiento del 10 al 35% al ​​manejar consultas no inglesas.

El soporte multilingüe proviene del cuidadoso diseño de tokenizador y capacitación adversas sintéticas que incluye ejercicios de cambio de lenguaje. Los modelos no solo detectan el lenguaje de una consulta de usuario, sino que tienen como objetivo responder en el mismo idioma, una característica importante para las implementaciones globales.

Además, Doria destacó cómo los modelos podrían usarse para aumentar el rendimiento de otros modelos existentes que una empresa ya puede estar utilizando:

“Imaginamos que los modelos se utilizarán en la orquestación, especialmente porque su costo de cómputo es bajo. Un resultado muy interesante en el lado de la evaluación: incluso el modelo de 350m resultó ser bueno en respuestas completamente diferentes a las respuestas [Meta] Llama y [Alibaba] Qwen estaba actuando en. Por lo tanto, hay una complementariedad actual que atribuimos a nuestra tubería de razonamiento, que va más allá de la rentabilidad… “

Acceso abierto y licencias

Según Doria y un documento técnico Detallando el entrenamiento de la familia Pleias-Rag, los modelos fueron entrenados en: “Corpus común para crear el conjunto de entrenamiento de trapo (todos los 3 millones de ejemplos provienen de él). Usamos [Google] GEMMA en la parte superior para la generación de trazas sintéticas de razonamiento ya que la licencia permitió reutilizar/reentrenamiento “.

Ambos modelos se lanzan bajo la licencia Apache 2.0, lo que permite la reutilización comercial e integración en sistemas más grandes.

Pleias enfatiza la idoneidad de los modelos para la integración en asistentes acuáticos de búsqueda, herramientas educativas y sistemas de soporte de usuarios. La compañía también proporciona una biblioteca API para simplificar el formateo estructurado de entrada-salida para los desarrolladores.

La liberación de los modelos es parte de un empuje más amplio por parte de las pleias para reposicionar pequeñas LLM como herramientas para el razonamiento estructurado, en lugar de como bots de conversación de propósito normal.

Al aprovechar una arquitectura de memoria externa y métodos de citas sistemáticas, la serie Pleias-Rag ofrece una alternativa transparente y auditable a modelos más opacos.

Perspectiva futura

Mirando hacia el futuro, Pleias planea expandir las capacidades de los modelos a través de un manejo de contexto más largo, una integración de búsqueda más estricta y un ajuste de personalidad para una presentación de identidad más consistente.

También se está explorando el aprendizaje de refuerzo, particularmente en dominios como la precisión de las citas, donde la verificación de cotizaciones se puede medir algorítmicamente.

El equipo también está colaborando activamente con socios como la Fundación Wikimedia para apoyar las integraciones de búsqueda específicas utilizando fuentes confiables.

En última instancia, el uso precise de implementaciones, modelos y flujos de trabajo específicos de RAG puede caer a medida que los modelos de IA más avanzados se capacitan e implementan, que incorporan el uso de herramientas de RAG y agente de forma nativa. Como Doria le dijo a VentureBeat a través de DM:

A largo plazo, mi convicción es que tanto los agentes de búsqueda clásicos y los modelos de contexto largos serán interrumpidos por los agentes de búsqueda. Hemos comenzado a movernos en esta dirección: es por eso que el modelo ya viene equipado con muchas características que actualmente están externalizadas en aplicaciones de RAG (reformulación de consultas, rescates, and so forth.). Obviamente, pretendemos ir más allá e integrar las capacidades de búsqueda y las capacidades de procesamiento de origen directamente en el modelo mismo. Mi convicción es que el trapo desaparecerá de alguna manera, ya que es automatizado por modelos de agente capaz de dirigir sus propios flujos de trabajo.

Con Pleias-Rag-350m y 1B, la compañía está apostando a que los modelos pequeños, cuando se combinan con un sólido andamio de razonamiento y salidas verificables, pueden competir con contrapartes mucho más grandes, especialmente en implementaciones multilingües y limitadas por infraestructura.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles