24.8 C
Colombia
lunes, julio 7, 2025

Cómo la arquitectura BitNet de próxima generación de Microsoft está impulsando la eficiencia del LLM


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información


Los modelos de lenguaje grande (LLM) de un bit han surgido como un enfoque prometedor para hacer que la IA generativa sea más accesible y asequible. Al representar los pesos del modelo con una cantidad muy limitada de bits, los LLM de 1 bit reducen drásticamente la memoria y los recursos computacionales necesarios para ejecutarlos.

Investigación de Microsoft ha estado superando los límites de los LLM de 1 bit con su arquitectura BitNet. en un papel nuevolos investigadores presentan BitNet a4.8, una nueva técnica que mejora aún más la eficiencia de los LLM de 1 bit sin sacrificar su rendimiento.

El auge de los LLM de 1 bit

Los LLM tradicionales utilizan números de punto flotante de 16 bits (FP16) para representar sus parámetros. Esto requiere mucha memoria y recursos informáticos, lo que limita la accesibilidad y las opciones de implementación de los LLM. LLM de un bit Aborde este desafío reduciendo drásticamente la precisión de los pesos de los modelos y al mismo tiempo igualando el rendimiento de los modelos de precisión complete.

Los modelos BitNet anteriores usaban valores de 1,58 bits (-1, 0, 1) para representar los pesos del modelo y valores de 8 bits para las activaciones. Este enfoque redujo significativamente los costos de memoria y E/S, pero el costo computacional de las multiplicaciones de matrices siguió siendo un cuello de botella, y optimizar las redes neuronales con parámetros de bits extremadamente bajos es un desafío.

Dos técnicas ayudan a abordar este problema. La dispersión cut back el número de cálculos al podar activaciones con magnitudes más pequeñas. Esto es particularmente útil en LLM porque los valores de activación tienden a tener una distribución de cola larga, con algunos valores muy grandes y muchos pequeños.

Cuantizaciónpor otro lado, utiliza una menor cantidad de bits para representar activaciones, lo que cut back el costo computacional y de memoria de procesarlas. Sin embargo, simplemente reducir la precisión de las activaciones puede provocar errores de cuantificación importantes y una degradación del rendimiento.

Además, combinar la dispersión y la cuantificación es un desafío y presenta problemas especiales al entrenar LLM de 1 bit.

“Tanto la cuantificación como la dispersión introducen operaciones no diferenciables, lo que hace que el cálculo del gradiente durante el entrenamiento sea particularmente desafiante”, dijo a VentureBeat Furu Wei, gerente de investigación de socios de Microsoft Analysis.

El cálculo de gradientes es esencial para calcular errores y actualizar parámetros al entrenar redes neuronales. Los investigadores también tuvieron que asegurarse de que sus técnicas pudieran implementarse de manera eficiente en el {hardware} existente manteniendo al mismo tiempo los beneficios tanto de la dispersión como de la cuantificación.

BitNet a4.8

BitNet a4.8 aborda los desafíos de optimizar los LLM de 1 bit a través de lo que los investigadores describen como “cuantización y dispersión híbridas”. Lo lograron diseñando una arquitectura que aplica selectivamente cuantificación o dispersión a diferentes componentes del modelo en función del patrón de distribución específico de activaciones. La arquitectura utiliza activaciones de 4 bits para entradas a las capas de atención y pink de retroalimentación (FFN). Utiliza dispersión con 8 bits para estados intermedios, manteniendo solo el 55% superior de los parámetros. La arquitectura también está optimizada para aprovechar el {hardware} existente.

“Con BitNet b1.58, el cuello de botella de inferencia de los LLM de 1 bit cambia de memoria/IO a cálculo, lo cual está limitado por los bits de activación (es decir, 8 bits en BitNet b1.58)”, dijo Wei. “En BitNet a4.8, llevamos los bits de activación a 4 bits para que podamos aprovechar los núcleos de 4 bits (por ejemplo, INT4/FP4) para duplicar la velocidad de la inferencia LLM en los dispositivos GPU. La combinación de pesos de modelo de 1 bit de BitNet b1.58 y activaciones de 4 bits de BitNet a4.8 aborda de manera efectiva tanto la memoria/IO como las limitaciones computacionales en la inferencia LLM”.

BitNet a4.8 también utiliza valores de 3 bits para representar los estados de clave (Okay) y valor (V) en el mecanismo de atención. El caché KV es un componente essential de los modelos de transformadores. Almacena las representaciones de tokens anteriores en la secuencia. Al reducir la precisión de los valores de caché de KV, BitNet a4.8 cut back aún más los requisitos de memoria, especialmente cuando se trata de secuencias largas.

La promesa de BitNet a4.8

Los resultados experimentales muestran que BitNet a4.8 ofrece un rendimiento comparable al de su predecesor BitNet b1.58 y utiliza menos computación y memoria.

En comparación con los modelos Llama de precisión complete, BitNet a4.8 cut back el uso de memoria en un issue de 10 y logra una velocidad 4 veces mayor. En comparación con BitNet b1.58, logra una aceleración 2 veces mayor a través de núcleos de activación de 4 bits. Pero el diseño puede ofrecer mucho más.

“La mejora informática estimada se basa en el {hardware} existente (GPU)”, dijo Wei. “Con {hardware} optimizado específicamente para LLM de 1 bit, las mejoras en cálculo se pueden mejorar significativamente. BitNet introduce un nuevo paradigma de cálculo que minimiza la necesidad de multiplicación de matrices, un enfoque principal en la optimización precise del diseño de {hardware}”.

La eficiencia de BitNet a4.8 lo hace particularmente adecuado para implementar LLM en el borde y en dispositivos con recursos limitados. Esto puede tener implicaciones importantes para la privacidad y la seguridad. Al habilitar LLM en el dispositivolos usuarios pueden beneficiarse del poder de estos modelos sin necesidad de enviar sus datos a la nube.

Wei y su equipo continúan su trabajo en LLM de 1 bit.

“Seguimos avanzando en nuestra investigación y visión para la period de los LLM de 1 bit”, dijo Wei. “Si bien nuestro enfoque precise está en la arquitectura de modelos y el soporte de software program (es decir, bitnet.cpp), nuestro objetivo es explorar el codiseño y la coevolución de la arquitectura de modelos y el {hardware} para desbloquear completamente el potencial de los LLM de 1 bit”.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles