Em seguimento aos planos previamente anunciados, a Nvidia afirmou que tornou públicos novos elementos da plataforma Run:ai, incluindo o KAI Scheduler.
O scheduler é uma solução de agendamento de GPU nativa do Kubernetes, agora disponível sob a licença Apache 2.0. Originalmente desenvolvido dentro da plataforma Run:ai, o KAI Scheduler agora está acessível à comunidade, enquanto continua a ser empacotado e entregue como parte da plataforma NVIDIA Run:ai.
A Nvidia afirmou que essa iniciativa destaca o compromisso da Nvidia em avançar tanto na infraestrutura de IA de código aberto quanto empresarial, promovendo uma comunidade ativa e colaborativa, incentivando contribuições,
feedback e inovação.
No post, Ronen Dar e Ekin Karabulut da Nvidia forneceram uma visão geral dos detalhes técnicos do KAI Scheduler, destacando seu valor para equipes de TI e ML, e explicaram o ciclo de agendamento e as ações realizadas.
Benefícios do KAI Scheduler
Gerenciar cargas de trabalho de IA em GPUs e CPUs apresenta diversos desafios que os schedulers de recursos tradicionais frequentemente não conseguem atender. O scheduler foi desenvolvido para abordar especificamente essas questões: Gerenciamento da demanda flutuante de GPUs; redução dos tempos de espera pelo acesso ao computo; garantias de recursos ou alocação de GPUs; e conexão perfeita de ferramentas e frameworks de IA.
Gerenciando demandas flutuantes de GPUs
Cargas de trabalho de IA podem mudar rapidamente. Por exemplo, você pode precisar de apenas uma GPU para trabalho interativo (por exemplo, para exploração de dados) e, em seguida, repentinamente precisar de várias GPUs para treinamento distribuído ou múltiplos experimentos. Schedulers tradicionais lutam com tal variabilidade.
O KAI Scheduler recalcula continuamente os valores de participação justa e ajusta quotas e limites em tempo real, correspondendo automaticamente às demandas atuais de carga de trabalho. Essa abordagem dinâmica ajuda a garantir uma alocação eficiente de GPUs sem intervenção manual constante dos administradores.
Redução dos tempos de espera pelo acesso ao computo
Para engenheiros de ML, o tempo é essencial. O scheduler reduz os tempos de espera ao combinar agendamento em grupo, compartilhamento de GPU e um sistema de filas hierárquico que permite que você envie lotes de trabalhos e depois se afaste, confiante de que as tarefas serão iniciadas assim que os recursos estiverem disponíveis e de acordo com as prioridades e a justiça.
Para otimizar ainda mais o uso de recursos, mesmo diante da demanda flutuante, o scheduler emprega duas estratégias eficazes para cargas de trabalho tanto de GPU quanto de CPU:
Consolidação e empacotamento: Maximiza a utilização do computo combatendo a fragmentação de recursos—empacotando tarefas menores em GPUs e CPUs parcialmente utilizadas—e abordando a fragmentação de nós, realocando tarefas entre nós.
Distribuição: Distribui uniformemente as cargas de trabalho entre nós ou GPUs e CPUs para minimizar a carga por nó e maximizar a disponibilidade de recursos por carga de trabalho.
Garantias de recursos ou alocação de GPU
Em clusters compartilhados, alguns pesquisadores garantem mais GPUs do que o necessário no início do dia para assegurar disponibilidade ao longo do tempo. Essa prática pode levar a recursos subutilizados, mesmo quando outras equipes ainda têm quotas não utilizadas.
O KAI Scheduler aborda isso aplicando garantias de recursos. Ele assegura que as equipes de praticantes de IA recebam suas GPUs alocadas, ao mesmo tempo que realoca dinamicamente recursos ociosos para outras cargas de trabalho. Essa abordagem previne o uso exagerado de recursos e promove a eficiência geral do cluster.
Conectar cargas de trabalho de IA com várias frameworks de IA pode ser desafiador. Tradicionalmente, as equipes enfrentam um labirinto de configurações manuais para ligar cargas de trabalho a ferramentas como Kubeflow, Ray, Argo e o Training Operator. Essa complexidade atrasa a prototipagem.
O KAI Scheduler resolve isso ao apresentar um agrupador de pods embutido que detecta e conecta automaticamente com essas ferramentas e frameworks—reduzindo a complexidade da configuração e acelerando o desenvolvimento.
GB Daily
Fique por dentro! Receba as últimas notícias na sua caixa de entrada diariamente.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
Como Claude Pensa? A Busca da Anthropic para Desvendar a Caixa-preta da IA
[the_ad id="145565"] Modelos de linguagem de grande escala (LLMs) como Claude mudaram a maneira como usamos a tecnologia. Eles alimentam ferramentas como chatbots, ajudam a…
A OpenAI busca reunir um grupo para aconselhar sobre seus objetivos sem fins lucrativos.
[the_ad id="145565"] Enquanto se prepara para fazer a transição de uma corporação sem fins lucrativos para uma com fins lucrativos, a OpenAI afirma que está convenindo um grupo…
Como a Amex utiliza IA para aumentar a eficiência: 40% menos escalonamentos de TI e 85% de aumento na assistência ao viajante.
[the_ad id="145565"] Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba mais A…