30.9 C
Colombia
domingo, julio 6, 2025

Entrenamiento de IA: los chips más nuevos de Google y Nvidia aceleran el entrenamiento de IA


NVIDIAoráculo, GoogleDell y otras 13 empresas informaron cuánto tiempo les toma a sus computadoras entrenar la clave redes neuronales en uso hoy en día. Entre esos resultados se encontraba el primer vistazo de La GPU de próxima generación de Nvidiael B200y el próximo acelerador de Google, llamado trilio. El B200 duplicó su rendimiento en algunas pruebas en comparación con el caballo de batalla precise NVIDIA chip, el H100. Y Trillium logró casi cuatro veces más que el chip que Google probó en 2023.

Las pruebas de referencia, denominadas MLPerf v4.1, constan de seis tareas: recomendación, preentrenamiento del grandes modelos de lenguaje (LLM) GPT-3 y BERT-large, el ajuste fino del Llama 2 Modelo de lenguaje grande 70B, detección de objetos, clasificación de nodos gráficos y generación de imágenes.

Capacitación GPT-3 Es una tarea tan gigantesca que no sería práctico hacerlo todo solo para ofrecer un punto de referencia. En cambio, la prueba consiste en entrenarlo hasta un punto que los expertos han determinado que significa que es possible que alcance la meta si continúa. Para Llama 2 70B, el objetivo no es entrenar el LLM desde cero, sino tomar un modelo ya entrenado y ajustarlo para que se especialice en una experiencia specific; en este caso,documentos gubernamentales. La clasificación de nodos de gráficos es un tipo de aprendizaje automático utilizado en la detección de fraudes y el descubrimiento de fármacos.

A medida que lo importante en la IA ha evolucionado, principalmente hacia el uso IA generativael conjunto de pruebas ha cambiado. Esta última versión de MLPerf marca un cambio completo en lo que se está probando desde que comenzó el esfuerzo de referencia. “En este punto, todos los puntos de referencia originales han sido eliminados”, cube David Kanterquien lidera el esfuerzo de referencia en MLCommons. En la ronda anterior, solo tomó unos segundos realizar algunas de las pruebas.

Un gráfico lineal con una línea azul diagonal y muchas ramas discontinuas y de colores que se elevan desde esa línea.El rendimiento de los mejores sistemas de aprendizaje automático en varios puntos de referencia ha superado lo que se esperaría si las ganancias procedieran únicamente de la Ley de Moore. [blue line]. La línea sólida representa los puntos de referencia actuales. Las líneas discontinuas representan puntos de referencia que ahora han sido retirados porque ya no son relevantes desde el punto de vista industrial.MLComunes

Según los cálculos de MLPerf, el entrenamiento de IA en el nuevo conjunto de puntos de referencia está mejorando aproximadamente el doble de lo que se esperaría de Ley de Moore. A medida que pasaron los años, los resultados se estabilizaron más rápidamente que al comienzo del reinado de MLPerf. Kanter atribuye esto principalmente al hecho de que las empresas han descubierto cómo realizar pruebas comparativas en sistemas muy grandes. Con el tiempo, NVIDIA, Googley otros han desarrollado software program y tecnología de purple que permiten un escalamiento casi lineal: duplicar los procesadores cut back el tiempo de capacitación aproximadamente a la mitad.

Primeros resultados del entrenamiento de Nvidia Blackwell

Esta ronda marcó las primeras pruebas de entrenamiento para la próxima arquitectura de GPU de Nvidia, llamada Blackwell. Para el entrenamiento de GPT-3 y el ajuste de LLM, el Blackwell (B200) duplicó aproximadamente el rendimiento del H100 por GPU. Las ganancias fueron un poco menos sólidas, pero aún sustanciales para los sistemas de recomendación y la generación de imágenes: 64 por ciento y 62 por ciento, respectivamente.

El Arquitectura de Blackwellincorporado en la GPU Nvidia B200, continúa una tendencia constante hacia el uso de números cada vez menos precisos para acelerar la IA. Para ciertas partes de las redes neuronales transformadoras, como ChatGPTLlama2, y Difusión establela Nvidia H100 y H200 utilizan números de coma flotante de 8 bits. El B200 lo cut back a sólo 4 bits.

Google estrena {hardware} de sexta generación

Google mostró los primeros resultados de sus 6th generación de TPU, llamada Trillium, que dio a conocer apenas el mes pasado, y una segunda ronda de resultados para su 5th variante de generación, el Cloud TPU v5p. En la edición de 2023, el gigante de las búsquedas introdujo una variante diferente del 5th TPU de última generación, v5e, diseñado más para la eficiencia que para el rendimiento. En comparación con este último, Trillium ofrece un aumento de rendimiento de hasta 3,8 veces en la tarea de entrenamiento GPT-3.

Pero frente a su archirrival, Nvidia, las cosas no fueron tan shade de rosa. Un sistema compuesto por 6.144 TPU v5ps alcanzó el punto de management de entrenamiento GPT-3 en 11,77 minutos, colocándose en un distante segundo lugar detrás de un sistema Nvidia H100 de 11.616, que completó la tarea en aproximadamente 3,44 minutos. Ese sistema TPU superior period sólo unos 25 segundos más rápido que una computadora H100 de la mitad de su tamaño.

Una computadora de Dell Applied sciences afinó el modelo de lenguaje grande Llama 2 70B usando alrededor de 75 centavos de electricidad.

En la comparación directa más cercana entre v5p y Trillium, con cada sistema compuesto por 2048 TPU, el próximo Trillium redujo en 2 minutos el tiempo de entrenamiento de GPT-3, casi una mejora del 8 por ciento con respecto a los 29,6 minutos de v5p. Otra diferencia entre las entradas Trillium y v5p es que Trillium se combina con AMD CPU Epyc en lugar de las v5p Intel Xeones.

Google también entrenó el generador de imágenes, Steady Diffusion, con Cloud TPU v5p. Con 2.600 millones de parámetros, Steady Diffusion es un elevador lo suficientemente liviano como para pedir a los concursantes de MLPerf que lo entrenen para converger en lugar de solo para un punto de management, como ocurre con GPT-3. Un sistema 1024 TPU ocupó el segundo lugar, terminando el trabajo en 2 minutos y 26 segundos, aproximadamente un minuto detrás del sistema del mismo tamaño compuesto por Nvidia H100.

El poder de entrenamiento aún es opaco

El elevado coste energético del entrenamiento de redes neuronales ha sido durante mucho tiempo motivo de preocupación. MLPerf apenas está comenzando a medir esto. Dell Applied sciences fue el único participante en la categoría de energía, con un sistema de ocho servidores que contiene 64 Nvidia H100. GPU y 16 Intel CPU Xeon Platino. La única medición realizada fue en la tarea de ajuste fino del LLM (Llama2 70B). El sistema consumió 16,4 megajulios durante su funcionamiento de 5 minutos, para una potencia media de 5,4 kilovatios. Eso significa alrededor de 75 centavos de electricidad al costo promedio en Estados Unidos.

Si bien no cube mucho por sí solo, el resultado potencialmente proporciona una aproximación al consumo de energía de sistemas similares. Oracle, por ejemplo, informó un resultado de rendimiento cercano (4 minutos y 45 segundos) utilizando la misma cantidad y tipos de CPU y GPU.

De los artículos de su sitio

Artículos relacionados en la Internet

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles