Los enormes recursos informáticos necesarios para capacitar a las redes neuronales para la inteligencia synthetic (IA) dan como resultado un consumo masivo de energía. Los investigadores de la Universidad Técnica de Munich (TUM) han desarrollado un método que es 100 veces más rápido y, por lo tanto, mucho más eficiente en energía. En lugar de adoptar un enfoque iterativo, los parámetros se calculan directamente en función de las probabilidades. Los resultados hasta ahora son comparables en calidad a los métodos iterativos existentes.
Las aplicaciones de IA como los modelos de idiomas grandes (LLM) se han convertido en una parte integral de nuestra vida cotidiana. Las capacidades de computación, almacenamiento y transmisión requeridas son proporcionadas por centros de datos que consumen grandes cantidades de energía. Solo en Alemania, esto ascendió a alrededor de 16 mil millones de kWh en 2020, o alrededor del 1% del consumo whole de energía del país. Para 2025, se espera que esta cifra aumente a 22 mil millones de kWh.
El nuevo método es 100 veces más rápido con precisión comparable
La llegada de aplicaciones de IA más complejas en los próximos años aumentará sustancialmente las demandas sobre la capacidad del centro de datos. Estas aplicaciones utilizarán grandes cantidades de energía para la capacitación de redes neuronales. Para contrarrestar esta tendencia, los investigadores han desarrollado un método de capacitación que es 100 veces más rápido al alcanzar la precisión comparable a los procedimientos existentes. Esto reducirá significativamente el consumo de energía para el entrenamiento.
El funcionamiento de las redes neuronales, que se utilizan en IA para tareas como el reconocimiento de imágenes o el procesamiento del lenguaje, se inspira en la forma en que funciona el cerebro humano. Estas redes consisten en nodos interconectados llamados neuronas artificiales. Las señales de entrada se ponderan con ciertos parámetros y luego se suman. Si se excede un umbral definido, la señal se pasa al siguiente nodo. Para entrenar la pink, la selección inicial de los valores de los parámetros generalmente se aleatora, por ejemplo, utilizando una distribución regular. Los valores se ajustan incrementalmente para mejorar gradualmente las predicciones de la pink. Debido a las muchas iteraciones requeridas, esta capacitación es extremadamente exigente y devour mucha electricidad.
Parámetros seleccionados según las probabilidades
Felix Dietrich, profesor de aprendizaje automático mejorado por física, y su equipo han desarrollado un nuevo método. En lugar de determinar iterativamente los parámetros entre los nodos, su enfoque utiliza probabilidades. Su método probabilístico se basa en el uso específico de valores en ubicaciones críticas en los datos de entrenamiento donde se producen cambios grandes y rápidos en los valores. El objetivo del estudio precise es utilizar este enfoque para adquirir sistemas dinámicos que conservan energía de los datos. Dichos sistemas cambian en el transcurso del tiempo de acuerdo con ciertas reglas y se encuentran en los modelos climáticos y en los mercados financieros, por ejemplo.
“Nuestro método permite determinar los parámetros requeridos con una potencia informática mínima. Esto puede hacer que el entrenamiento de las redes neuronales sea mucho más rápida y, como resultado, más eficiente en energía”, cube Felix Dietrich. “Además, hemos visto que la precisión del nuevo método es comparable a la de las redes iterativamente capacitadas”.