Para la mayor parte de la historia de la inteligencia synthetic, muchos investigadores esperaban que construir sistemas verdaderamente capaces necesitaría una larga serie de avances científicos: algoritmos revolucionarios, profundas concepts sobre la cognición humana o los avances fundamentales en nuestra comprensión del cerebro. Si bien los avances científicos han jugado un papel, el reciente progreso de la inteligencia synthetic ha revelado una visión inesperada: gran parte de la mejora reciente en las capacidades de IA ha surgido simplemente ampliar sistemas de IA existentes.1
Aquí, la escala significa implementar más energía computacional, usar conjuntos de datos más grandes y construir modelos más grandes. Este enfoque ha funcionado sorprendentemente bien hasta ahora.2 Hace solo unos años, los sistemas de IA de última generación lucharon con tareas básicas como contar.34 Hoy pueden Resolver problemas de matemáticas complejas, escribir software program, crear imágenes extremadamente realistas y moviesy discutir temas académicos.
Este artículo proporcionará una breve descripción de la escala en la IA en los últimos años. Los datos provienen de Épocauna organización que analiza las tendencias en la informática, los datos y las inversiones para comprender hacia dónde podría encabezarse la IA.5 Epoch mantiene el conjunto de datos más extenso en los modelos de inteligencia synthetic y publica regularmente figuras clave sobre el crecimiento y el cambio de IA.
¿Qué es la escala en los modelos de IA?
Desglosemos brevemente lo que significa escalar en la IA. La escala se trata de aumentar tres cosas principales durante el entrenamiento, que generalmente necesitan crecer juntos:
• la cantidad de datos utilizados para capacitar a la IA;
• El tamaño del modelo, medido en “parámetros”;
• Recursos computacionales, a menudo llamados “cálculos” en la IA.
La thought es easy pero poderosa: sistemas de IA más grandes, capacitados en más datos y utilizando más recursos computacionales, tienden a funcionar mejor. Incluso sin cambios sustanciales en los algoritmos, este enfoque a menudo conduce a un mejor rendimiento en muchas tareas.6
Aquí hay otra razón por la cual esto es importante: a medida que los investigadores amplían estos sistemas de IA, no solo ellos mejorar En las tareas en las que fueron entrenados, pero a veces pueden llevarlos a desarrollar nuevas habilidades que no tenían a menor escala.7 Por ejemplo, los modelos de lenguaje inicialmente lucharon con pruebas aritméticas simples como la adición de tres dígitos, pero los modelos más grandes podrían manejarlos fácilmente una vez que alcanzaron un cierto tamaño.8 La transición no fue una mejora suave e incremental, sino un salto más abrupto en las capacidades.
Este abrupto salto en la capacidad, en lugar de una mejora constante, puede ser preocupante. Si, por ejemplo, los modelos de repente desarrollan comportamientos inesperados y potencialmente dañinos simplemente como resultado de crecer, sería más difícil anticipar y controlar.
Esto hace que el seguimiento de estas métricas sea importante.
¿Cuáles son los tres componentes de ampliar los modelos AI?
Datos: ampliar los datos de capacitación
Una forma de ver los modelos de IA de hoy es considerarlos como sistemas de reconocimiento de patrones muy sofisticados. Trabajan identificando y aprendiendo de regularidades estadísticas en el texto, imágenes u otros datos sobre los que están capacitados. Cuantos más datos tengan acceso el modelo, más podrá aprender sobre los matices y complejidades del dominio de conocimiento en el que está diseñado para operar.9
En 1950, Claude Shannon construyó uno de los primeros ejemplos de “AI”: un ratón robótico llamado Teseo que podría “recordar” su camino a través de un laberinto usando circuitos de relevos simples. Cada pared en el que se topó con Teseo se convirtió en un punto de datos, lo que le permite aprender la ruta correcta. El número whole de paredes o puntos de datos fue 40. Puede encontrar este punto de datos en el gráfico; Es el primero.
Mientras que Teseo almacenó estados binarios simples en los circuitos de retransmisión, los sistemas de IA modernos utilizan vastas redes neuronales, que pueden aprender patrones y relaciones mucho más complejos y, por lo tanto, procesar miles de millones de puntos de datos.
Todos los modelos de IA notables recientes, especialmente los de última generación, en gran medida en grandes cantidades de datos de capacitación. Con el eje Y se muestra en una escala logarítmica, el gráfico muestra que los datos utilizados para entrenar modelos AI han crecido exponencialmente. Desde 40 puntos de datos para Teseo hasta billones de puntos de datos para los sistemas modernos más grandes en poco más de siete décadas.
Desde 2010, los datos de capacitación han duplicado aproximadamente cada nueve a diez meses. Puede ver este rápido crecimiento en la tabla, que se muestra por la línea púrpura que se extiende desde principios de 2010 hasta octubre de 2024, el último punto de datos mientras escribo este artículo.10
Los conjuntos de datos utilizados para capacitar modelos de idiomas grandes, en explicit, han experimentado una tasa de crecimiento aún más rápida, triplicar en tamaño cada año desde 2010. Los modelos de lenguaje grandes procesan el texto dividiéndolo en tokens: unidades básicas que el modelo puede codificar y comprender. Un token no corresponde directamente a una palabra, pero en promedio, tres palabras en inglés corresponden a aproximadamente cuatro tokens.
Se estima que GPT-2, publicado en 2019, fue capacitado en 4 mil millones de tokens, aproximadamente equivalente a 3 mil millones de palabras. Para poner esto en perspectiva, a partir de septiembre de 2024, la Wikipedia inglesa contenía alrededor de 4.600 millones de palabras.11 En comparación, GPT-4, lanzado en 2023, fue entrenado en casi 13 billones de tokens, o aproximadamente 9.75 billones de palabras.12 Esto significa que los datos de capacitación de GPT-4 eran equivalentes a más de 2,000 veces la cantidad de texto de toda la wikipedia inglesa.
A medida que usamos más datos para entrenar los sistemas de IA, eventualmente podríamos sin de materiales generados por humanos de alta calidad como libros, artículos y trabajos de investigación. Algunos investigadores predicen que podríamos agotar materiales de capacitación útiles en las próximas décadas13. Si bien los modelos de IA mismos pueden generar grandes cantidades de datos, la capacitación de IA en materiales generados por la máquina podría crear problemas, lo que hace que los modelos sean menos precisos y más repetitivos.14
Parámetros: ampliar el tamaño del modelo
Aumentar la cantidad de datos de capacitación permite a los modelos de IA aprender de mucha más información que nunca. Sin embargo, para captar los patrones en estos datos y aprender de manera efectiva, los modelos necesitan lo que se llaman “parámetros”. Los parámetros son un poco como las perillas que se pueden ajustar para mejorar la forma en que el modelo procesa la información y hace predicciones. A medida que crece la cantidad de datos de capacitación, los modelos necesitan más capacidad para capturar todos los detalles en los datos de capacitación. Esto significa que los conjuntos de datos más grandes generalmente requieren que los modelos tengan más parámetros para aprender de manera efectiva.
Las primeras redes neuronales tenían cientos o miles de parámetros. Con su easy circuito de aprendizaje laberinto, Teseo period un modelo con solo 40 parámetros, equivalente al número de paredes que encontró. Modelos grandes recientes, como GPT-3, cuentan con hasta 175 mil millones de parámetros.15 Si bien el número bruto puede parecer grande, esto se traduce aproximadamente en 700 GB si se almacena en un disco, que es fácilmente manejable por las computadoras de hoy.
El cuadro muestra cómo se ha disparado el número de parámetros en los modelos AI con el tiempo. Desde 2010, el número de parámetros del modelo AI se ha duplicado aproximadamente cada año. El número más alto estimado de parámetros registrados por Epoch es 1.6 billones en el modelo QMOE.
Si bien los modelos de IA más grandes pueden hacer más, también enfrentan algunos problemas. Un problema importante se llama “sobreajuste”. Esto sucede cuando una IA se vuelve “demasiado optimizada” para procesar los datos particulares en los que fue entrenado pero lucha con nuevos datos. Para combatir esto, los investigadores emplean dos estrategias: implementar técnicas especializadas para un aprendizaje más generalizado y ampliar el volumen y la diversidad de los datos de capacitación.
Calcular: ampliar los recursos computacionales
A medida que los modelos de IA crecen en datos y parámetros, requieren recursos exponencialmente más computacionales. Estos recursos, comúnmente denominados “calculador” en la investigación de IA, generalmente se miden en operaciones totales de punto flotante (“flop”), donde cada flop representa un solo cálculo aritmético como la adición o la multiplicación.
Las necesidades computacionales para el entrenamiento de IA han cambiado drásticamente con el tiempo. Con sus modestos datos y recuentos de parámetros, los primeros modelos podrían entrenarse en horas en {hardware} easy. Los modelos más avanzados de hoy requieren cientos de días de cálculos continuos, incluso con decenas de miles de computadoras de uso especial.
El cuadro muestra que el cálculo utilizado para entrenar a cada modelo de IA, que sale en el eje vertical, ha aumentado de manera consistente y exponencial en las últimas décadas. De 1950 a 2010, el cálculo se duplicó aproximadamente cada dos años. Sin embargo, desde 2010, este crecimiento se ha acelerado dramáticamente, ahora duplicando aproximadamente cada seis meses, con el modelo más intensivo de cómputo que alcanza los 50 mil millones de petaflop mientras escribo este artículo.16
Para poner esta escala en perspectiva, una sola tarjeta gráfica de alta gama como la Nvidia GeForce RTX 3090, utilizada en la investigación de IA, que avanza a plena capacidad durante todo un año se completaría solo 1.1 millones de cálculos de petaflop. 50 mil millones de petaflop es aproximadamente 45,455 veces más que eso.
Lograr cálculos en esta escala requiere grandes inversiones de energía y {hardware}. Se ha estimado que algunos de los últimos modelos cuestan hasta $ 40 milloneshaciéndolo accesible solo para algunas organizaciones bien financiadas.
Calcular, datos y parámetros tienden a escalar al mismo tiempo
Calculación, datos y parámetros están estrechamente interconectados cuando se trata de escalar modelos AI. Cuando los modelos de IA están capacitados en más datos, hay más cosas que aprender. Para lidiar con la creciente complejidad de los datos, los modelos de IA, por lo tanto, requieren más parámetros para aprender de las diversas características de los datos. Agregar más parámetros al modelo significa que necesita más recursos computacionales durante la capacitación.
Esta interdependencia significa que los datos, los parámetros y el cálculo deben crecer simultáneamente. De hoy conjuntos de datos públicos más grandes son aproximadamente 10 veces más grandes de lo que la mayoría de los modelos de IA usan actualmente, algunos contienen cientos de billones de palabras. Pero sin suficiente cómputo y parámetros, los modelos de IA aún no pueden usarlos para el entrenamiento.
¿Qué podemos aprender de estas tendencias para el futuro de la IA?
Las empresas buscan grandes inversiones financieras para desarrollar y escalar sus modelos de IA, con Un enfoque creciente sobre tecnologías generativas de IA. Al mismo tiempo, el {hardware} clave que se utiliza para el entrenamiento, GPU, se está obteniendo mucho más barato y más potente, con su velocidad de computación duplicando aproximadamente cada 2.5 años por dólar gastado.17 Algunas organizaciones también están aprovechando más recursos computacionales no solo en la capacitación de modelos de IA sino también durante la inferencia, la fase cuando los modelos generan respuestas, como se ilustra en El último modelo O1 de Openai.
Estos desarrollos podrían ayudar a crear tecnologías de IA más sofisticadas más rápido y más barato. A medida que las empresas invierten más dinero y lo necesario El {hardware} mejorapodríamos ver mejoras significativas en lo que la IA puede hacer, incluidas nuevas capacidades potencialmente inesperadas.
Debido a que estos cambios podrían tener efectos importantes en nuestra sociedad, es importante que rastreemos y comprendamos estos desarrollos desde el principio. Para respaldar esto, nuestro mundo en los datos actualizará las métricas clave, como el crecimiento de los recursos computacionales, los volúmenes de datos de capacitación y los parámetros del modelo, de manera mensual. Estas actualizaciones ayudarán a monitorear la rápida evolución de las tecnologías de IA y proporcionar información valiosa sobre su trayectoria.
Este artículo fue publicado originalmente en Nuestro mundo en datos y ha sido republicado aquí bajo una licencia Artistic Commons. Leer el artículo unique.