24.8 C
Colombia
lunes, julio 7, 2025

Fuentes abiertas de NVIDIA Run: AI Scheduler to Foster Neighborhood Collaboration


Seguimiento de anunciado previamente Planes, Nvidia dijo que ha abierto nuevos elementos de la plataforma Run: AI, incluido el planificador KAI.

El Scheduler es una solución de programación de GPU nativa de Kubernetes, ahora disponible bajo la licencia Apache 2.0. Originalmente desarrollado dentro de la plataforma Run: AI, Kai Scheduler ahora está disponible para la comunidad mientras también continúa siendo empaquetado y entregado como parte de la plataforma NVIDIA Run: AI.

NVIDIA dijo que esta iniciativa subraya el compromiso de Nvidia para avanzar tanto en la infraestructura de IA de código abierto como a la empresa, fomentando una comunidad activa y colaborativa, alentando las contribuciones,
retroalimentación e innovación.

En su publicación, Ronen Dar y Ekin Karabulut de Nvidia proporcionaron una visión basic de los detalles técnicos de Kai Scheduler, resaltan su valor para los equipos de TI y ML, y explican el ciclo y las acciones de programación.

Beneficios del planificador de Kai

La gestión de cargas de trabajo de IA en GPU y CPU presenta una serie de desafíos que los programadores de recursos tradicionales a menudo no cumplen. El planificador fue desarrollado para abordar específicamente estos problemas: gestión de demandas fluctuantes de GPU; Tiempos de espera reducidos para el acceso al cómputo; garantías de recursos o asignación de GPU; y conectando sin problemas herramientas y marcos de IA.

Gestión de demandas de GPU fluctuantes

Las cargas de trabajo de IA pueden cambiar rápidamente. Por ejemplo, es posible que solo necesite una GPU para el trabajo interactivo (por ejemplo, para la exploración de datos) y luego de repente requiere varias GPU para capacitación distribuida o múltiples experimentos. Los programadores tradicionales luchan con tal variabilidad.

El planificador de KAI recalcula continuamente los valores de compartir justos y ajusta las cuotas y los límites en tiempo actual, coincidiendo automáticamente con las demandas de carga de trabajo actuales. Este enfoque dinámico ayuda a garantizar una asignación eficiente de GPU sin una intervención guide constante de los administradores.

Tiempos de espera reducidos para el acceso al cómputo

Para los ingenieros de ML, el tiempo es esencial. El programador scale back los tiempos de espera al combinar la programación de pandillas, el intercambio de GPU y un sistema de colas jerárquico que le permite enviar lotes de trabajos y luego alejarse, seguro de que las tareas se lanzarán tan pronto como los recursos estén disponibles y alineen las prioridades y la justicia.

Para optimizar aún más el uso de recursos, incluso ante la demanda fluctuante, el programador
Emplea dos estrategias efectivas para las cargas de trabajo de GPU y CPU:

Empacado y consolidación de Bin: Maximiza la utilización de la calificación al combatir los recursos
Fragmentación: recopilar tareas más pequeñas en GPU y CPU parcialmente utilizadas) y dirigirse
Fragmentación del nodo mediante reasignar tareas entre nodos.

Dispersión: distribuye uniformemente las cargas de trabajo en nodos o GPU y CPU para minimizar el
Carga por nodo y maximice la disponibilidad de recursos por carga de trabajo.

Garantías de recursos o asignación de GPU

En grupos compartidos, algunos investigadores aseguran más GPU de lo necesario temprano en el día para garantizar la disponibilidad en todo momento. Esta práctica puede conducir a recursos subutilizados, incluso cuando otros equipos aún tienen cuotas no utilizadas.

El programador de KAI aborda esto al hacer cumplir las garantías de recursos. Asegura que los equipos profesionales de la IA reciban sus GPU asignadas, al tiempo que reiniciar dinámicamente los recursos inactivos a otras cargas de trabajo. Este enfoque evita el acero de recursos y promueve la eficiencia basic del clúster.

Conectar cargas de trabajo de IA con varios marcos de IA puede ser desalentador. Tradicionalmente, los equipos enfrentan un laberinto de configuraciones manuales para unir cargas de trabajo con herramientas como Kubeflow, Ray, Argo y el operador de capacitación. Esta complejidad retrasa la creación de prototipos.

KAI Scheduler aborda esto al presentar un podgrouper incorporado que detecta y se conecta automáticamente con estas herramientas y marcos, reduciendo la complejidad de la configuración y el desarrollo acelerado.


Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles