Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información
Investigadores de IA sakana han desarrollado un marco eficiente en recursos que puede crear cientos de modelos de lenguaje especializados en diferentes tareas. Llamado CicloQDla técnica utiliza algoritmos evolutivos para combinar las habilidades de diferentes modelos sin necesidad de procesos de entrenamiento lentos y costosos.
CycleQD puede crear enjambres de agentes para tareas específicas que ofrecen una alternativa más sostenible al paradigma precise de aumentar el tamaño del modelo.
Repensar el entrenamiento modelo
Grandes modelos de lenguaje (LLM) han demostrado capacidades notables en diversas tareas. Sin embargo, capacitar a los LLM para que dominen múltiples habilidades sigue siendo un desafío. Al ajustar los modelos, los ingenieros deben equilibrar los datos de diferentes habilidades y asegurarse de que una habilidad no domine a las demás. Los enfoques actuales a menudo implican el entrenamiento de modelos cada vez más grandes, lo que conduce a demandas computacionales y requisitos de recursos cada vez mayores.
“Creemos que, en lugar de aspirar a desarrollar un único modelo grande que funcione bien en todas las tareas, los enfoques basados en la población para desarrollar un enjambre diverso de modelos de nicho pueden ofrecer un camino alternativo y más sostenible para ampliar el desarrollo de agentes de IA con capacidades avanzadas. ”, escriben los investigadores de Sakana en una publicación de weblog.
para crear poblaciones de modeloslos investigadores se inspiraron en la diversidad de calidad (QD), un paradigma informático evolutivo que se centra en descubrir un conjunto diverso de soluciones a partir de una muestra de población inicial. QD tiene como objetivo crear especímenes con varias “características de comportamiento” (BC), que representan diferentes dominios de habilidades. Lo logra mediante algoritmos evolutivos (EA) que seleccionan ejemplos principales y utilizan operaciones de cruce y mutación para crear nuevas muestras.

CicloQD
CycleQD incorpora QD en el proceso posterior a la capacitación de los LLM para ayudarlos a aprender habilidades nuevas y complejas. CycleQD es útil cuando tienes varios modelos pequeños que han sido ajustados para habilidades muy específicas, como codificación o interpretación. base de datos y sistema operativo operaciones y desea crear nuevas variantes que tengan diferentes combinaciones de esas habilidades.
En el marco CycleQD, cada una de estas habilidades se considera una característica de comportamiento o una cualidad para la que se optimiza la próxima generación de modelos. En cada generación, el algoritmo se centra en una habilidad específica como métrica de calidad mientras utiliza las otras habilidades como BC.
“Esto garantiza que cada habilidad tenga su momento de protagonismo, lo que permite que los LLM crezcan de manera más equilibrada y capaz en normal”, explican los investigadores.

CycleQD comienza con un conjunto de LLM expertos, cada uno de ellos especializado en una única habilidad. Luego, el algoritmo aplica operaciones de “cruce” y “mutación” para agregar nuevos modelos de mayor calidad a la población. Crossover combina las características de dos modelos principales para crear un nuevo modelo, mientras que la mutación realiza cambios aleatorios en el modelo para explorar nuevas posibilidades.
La operación de cruce se basa en fusión de modelosuna técnica que combina los parámetros de dos LLM para crear un nuevo modelo con habilidades combinadas. Este es un método rápido y rentable para desarrollar modelos completos sin la necesidad de ajustarlos.
La operación de mutación utiliza descomposición de valores singulares (SVD), un método de factorización que descompone cualquier matriz en componentes más simples, lo que facilita la comprensión y manipulación de sus elementos. CycleQD utiliza SVD para dividir las habilidades del modelo en componentes fundamentales o subhabilidades. Al ajustar estas subhabilidades, el proceso de mutación crea modelos que exploran nuevas capacidades más allá de las de sus modelos originales. Esto ayuda a que los modelos eviten quedarse estancados en patrones predecibles y cut back el riesgo de sobreajuste.
Evaluación del rendimiento de CycleQD
Los investigadores aplicaron CycleQD a un conjunto de Llama 3-8B Modelos expertos ajustados para codificación, operaciones de bases de datos y operaciones de sistemas operativos. El objetivo period ver si el método evolutivo podía combinar las habilidades de los tres modelos para crear un modelo superior.
Los resultados mostraron que CycleQD superó a los métodos tradicionales de ajuste fino y fusión de modelos en todas las tareas evaluadas. En explicit, un modelo ajustado en todos los conjuntos de datos combinados funcionó sólo marginalmente mejor que los modelos expertos de una sola habilidad, a pesar de haber sido entrenado con más datos. Además, el proceso de formación tradicional es mucho más lento y caro. CycleQD también pudo crear varios modelos con diferentes niveles de rendimiento en las tareas objetivo.
“Estos resultados muestran claramente que CycleQD supera a los métodos tradicionales, lo que demuestra su eficacia en la formación de LLM para que sobresalgan en múltiples habilidades”, escriben los investigadores.

Los investigadores creen que CycleQD tiene el potencial de permitir el aprendizaje permanente en los sistemas de inteligencia synthetic, permitiéndoles crecer, adaptarse y acumular conocimientos continuamente a lo largo del tiempo. Esto puede tener implicaciones directas para aplicaciones del mundo actual. Por ejemplo, CycleQD se puede utilizar para fusionar continuamente las habilidades de modelos expertos en lugar de entrenar un modelo grande desde cero.
Otra dirección interesante es el desarrollo de sistemas multiagente, donde enjambres de agentes especializados evolucionados a través de CycleQD puedan colaborar, competir y aprender unos de otros.
“Desde el descubrimiento científico hasta la resolución de problemas del mundo actual, enjambres de agentes especializados podrían redefinir los límites de la IA”, escriben los investigadores.