Bolt42

Apresentado pela Penguin Solutions


Atualmente, as organizações estão sob intensa pressão para alavancar a IA como uma vantagem competitiva, mas ainda estamos nos estágios iniciais. Apenas cerca de 40% das grandes empresas já implementaram a IA em seus negócios, mas barreiras mantêm outros 40% em fases de exploração e experimentação. Apesar do grande interesse, 38% dos profissionais de TI admitem que a falta de infraestrutura tecnológica é uma grande barreira para o sucesso da IA.

Por que tantas organizações estão ficando para trás na corrida pela implementação da IA? A Harvard Business Review estima que a taxa de falhas pode ser tão alta quanto 80% — cerca do dobro das taxas de falhas de outros projetos de TI corporativos. Uma das principais barreiras que impedem implantações bem-sucedidas de IA é a falta de habilidades e expertise em IA. De fato, 9 em cada 10 organizações enfrentam uma escassez de habilidades de TI, o que expõe lacunas na execução do design de sistemas de IA, implementação e gerenciamento contínuo de clusters. Sem o conhecimento, ferramentas de software e especialização necessários, 83% das organizações admitem não conseguir utilizar completamente seu hardware de GPU e IA, mesmo após a implantação do sistema.

Gerenciar a infraestrutura de IA é um desafio totalmente diferente, que exige uma abordagem significativamente distinta em comparação com a infraestrutura de TI tradicional, diz Jonathan Ha, diretor sênior de gerenciamento de produtos – sistemas de IA na Penguin Solutions.

“Ajustar o custo, desempenho, dados e o modelo operacional para um caso de uso e carga de trabalho específicos começa com uma infraestrutura sólida de IA, gerenciada de forma inteligente,” diz Ha. “Você não pode e não vai passar do proof of concept para produção em escala até que tenha estabelecido essa fundação.”

A seguir, uma visão das cinco principais dificuldades ao construir sua arquitetura de IA e como as empresas podem abordá-las e superá-las.

Desafio #1: As organizações de TI não estão prontas para IA

A TI possui décadas de ferramentas, processos e experiências em monitorar e gerenciar cargas de trabalho de computação de propósito geral e computação de alto desempenho (HPC) em nível de CPU. No entanto, a infraestrutura de IA de hoje exige melhorias significativas nas capacidades de monitoramento e gerenciamento. Com a adição de novas tecnologias, como GPUs de alta potência, interconexões de alto desempenho, redes de baixa latência e até mesmo a adição de infraestrutura de resfriamento a líquido, as organizações de TI enfrentam o desafio de construir a expertise necessária para monitorar e gerenciar esses clusters de IA, especialmente em escala.

Projetar as arquiteturas de clusters de computação e armazenamento, construir os topologias de rede e, em seguida, ajustá-los para obter o máximo desempenho para suas cargas de trabalho de IA exige habilidades, experiência e conhecimentos especializados.

A solução: Invista em expertise em infraestrutura de IA

Muitas organizações abordam esse desafio com uma falsa sensação de confiança, acreditando que sua extensa experiência em infraestrutura de TI as capacita com o conhecimento necessário para ter sucesso. Infelizmente, isso muitas vezes significa que elas lutam para ganhar tração em sua infraestrutura ou alcançar os resultados esperados. O sucesso de uma estratégia de IA depende das primeiras decisões tomadas: casos de uso, design do projeto, necessidades de hardware, custos e mais. Isso requer experiência prática e atualizada em projetar, implantar e gerenciar a infraestrutura de IA de hoje.

Infelizmente, a explosão da IA superou em muito a disponibilidade de profissionais qualificados, dificultando a busca por essa especialização. Em um mercado tão restrito, é crítico ter o talento certo, seja por meio de treinamento de pessoal existente, contratação externa ou seleção de um parceiro adequado em infraestrutura de IA.

Desafio #2: Construindo para as necessidades de hoje e do futuro

Mesmo antes de projetar um sistema, as organizações precisam mapear seus casos de uso de IA, modelos e conjuntos de dados para dimensionar a infraestrutura de IA necessária. É importante considerar fatores como parâmetros do modelo, usuários suportados e necessidades de desempenho, enquanto também se antecipa como essas necessidades crescerão e mudarão à medida que a adoção da IA continua a crescer. Ao mesmo tempo, as organizações devem considerar as demandas de dados em rápida expansão e o cenário tecnológico em constante evolução. Como uma organização pode permanecer ágil, escalar facilmente e entregar desempenho, segurança e estabilidade esperados ao gerenciar uma arquitetura de IA complexa?

A solução: Planejar do zero

Primeiro, uma organização deve desenvolver um roteiro abrangente de IA que identifica os recursos necessários em cada fase da jornada de IA e o cronograma para sua implantação. Por exemplo, iniciar o design com um centro de dados é crucial, pois suas capacidades de potência e resfriamento determinarão a viabilidade do cluster de IA e a escalabilidade futura. Em seguida, seleciona-se e integra-se arquiteturas modulares validadas que permitem configuração fácil para atender às demandas de computação em mudança, fornecendo alta disponibilidade e desempenho, mesmo à medida que cargas de trabalho e casos de uso mudam ao longo do tempo.

Desafio #3: Gestão de dados e governança tornou-se ainda mais importante

A IA depende da gestão eficiente de grandes conjuntos de dados em todo o pipeline. A segurança dos dados pode se tornar um desafio, e garantir que os dados sejam limpos, precisos e isentos de viés, além de estarem alinhados com regulamentações de conformidade interna e externa, é um risco contínuo e uma responsabilidade contínua.

“Cada dado se torna valioso em uma iniciativa de IA, mas também é mais vulnerável assim que é liberado das silos de uma organização. Além disso, o viés muitas vezes se infiltra, introduzido pela rotulagem e classificação ao treinar um modelo de IA,” diz Ha. “Estabelecer os processos, controles e governança adequados para usar os dados de maneira segura e equitativa é algo que deve ser uma prioridade.”

A solução: Estabelecendo guardrails

Os líderes devem investir tempo em entender os possíveis perigos, incluindo vazamentos, uso indevido de dados e reclassificação de dados, assim como viés, antes de lidar com os dados e iniciar a iniciativa de IA. Eles devem então estabelecer processos e ferramentas para proteger os dados em todos os locais. Além disso, é importante mapear quais funções obtêm que tipo de acesso e ficar vigilante na rastreabilidade e monitoramento dessa atividade.

Desafio #4: Gerenciar a infraestrutura de IA requer uma nova abordagem

Redes mal configuradas, falhas de nós ou perda de GPUs podem interromper operações, causando atrasos nos lançamentos de novos produtos ou dificultando a descoberta de insights críticos. Lidar com esses desafios é difícil devido à complexidade da arquitetura e à necessidade de talento qualificado. É necessária experiência para gerenciar o design ideal do cluster e o gerenciamento inteligente do cluster. Além disso, o ajuste contínuo e o refinamento do seu modelo ao longo do pipeline são essenciais para o sucesso.

A solução: Adotar novas estratégias operacionais

Manter uma iniciativa de IA no caminho certo e continuamente otimizada exige a implementação de uma abordagem AIOps, que combina big data, análises e machine learning em uma plataforma de TI automatizada e inteligente. Isso garante visibilidade e controle completos sobre todos os aspectos de um pipeline de IA. Automatiza a classificação e integração de dados organizacionais, identifica problemas de desempenho e disponibilidade de aplicativos, diagnostica causas raízes e, em seguida, as aborda para minimizar lentidões e escassez. Isso, por sua vez, revela maneiras de otimizar cargas de trabalho e aumentar a eficiência.

Desafio #5: O ROI depende da disponibilidade e desempenho

A IA é uma empreitada exigente e custosa que não pode se dar ao luxo de sistemas ineficientes ou de inatividade desnecessária – e no entanto, muitas organizações enfrentam isso diariamente. Por exemplo, um recente artigo da Meta detalhou a experiência da empresa ao treinar seu modelo Llama 3, que possui 16.000 GPUs no cluster. Infelizmente, houve uma falha relacionada a GPUs no cluster a cada três horas. E quando você está lidando com uma carga de trabalho paralela simultânea, isso pode levar a atrasos, reinicializações de jobs ou até mesmo a resultados e desfechos incorretos.

“Nós ouvimos de clientes e outros provedores de infraestrutura de IA em larga escala que, a qualquer momento, seus clusters de IA podem ter entre 30% e 70% de seus nós de GPU disponíveis,” diz Ha. “Se você tiver apenas 70% de seus nós de GPU disponíveis e estiver alcançando apenas 70% do desempenho alvo de seu sistema, você está realizando apenas 49% do valor potencial de seu investimento em infraestrutura de IA. Os 51% de valor perdido terão um impacto negativo significativo em seu ROI.”

A solução: A automação é fundamental

Ser capaz de monitorar, gerenciar e criar processos que automatizam e prevêm falhas é a melhor maneira de mitigar uma grande parte do risco, afirma Ha. Quando a Meta implementou ferramentas e processos automatizados, eles viram uma execução de treinamento com mais de 400 interrupções – e quase todas essas interrupções foram tratadas automaticamente, sem intervenção humana e sem precisar pausear o job.

“Essa é a ‘receita secreta’ que vem com mais de 2 bilhões de horas de experiência na gestão desses grandes clusters de IA – ter as ferramentas, insights e processos automatizados para mantê-los em funcionamento,” afirma ele.

Olhando para frente e lançando uma estratégia de IA

Lançar uma estratégia de IA exige tempo, esforço e uma grande quantidade de habilidades e compreensão especializadas. Enfrentar e solucionar esses desafios, mantendo o ritmo com concorrentes que lançam suas próprias iniciativas, torna-se cada vez mais arriscado, especialmente ao trabalhar com uma tecnologia em rápida evolução. Há maneiras de fortalecer e salvaguardar as iniciativas de IA, diz Ha.

“O desafio não é apenas a complexidade, ou mesmo o conjunto de habilidades,” diz ele. “Trata-se de evoluir sua organização junto com a tecnologia.”

Para garantir uma iniciativa de IA bem-sucedida, as organizações devem se manter atualizadas sobre os mais recentes avanços tecnológicos e fomentar uma cultura interna que seja proficiente em IA. Ao aproveitar as capacidades de AIOps e MLOps, essas organizações podem integrar a IA perfeitamente em seus fluxos de trabalho em várias equipes e domínios. Para otimizar continuamente seus modelos de IA, é essencial quebrar barreiras departamentais e promover a colaboração. Uma cultura de experimentação, iteração e aprendizado, tanto com sucessos quanto com falhas, apoiada por parcerias com especialistas em IA, é fundamental para o sucesso da estratégia de IA a longo prazo.

A peça mais importante de conselho para uma iniciativa de IA bem-sucedida?

“Investimentos sólidos nas ferramentas, parceiros e expertise corretos,” diz Ha. “A IA é uma enorme empreitada, mas desenvolver a fundação e essas capacidades logo de início ajuda você a entregar retorno sobre investimento e tempo de valor mais rápidos, reduz significativamente o risco para o negócio e oferece a vantagem competitiva que você precisa para ter sucesso no mercado.”

Visite a Penguin Solutions para saber mais sobre como proteger sua arquitetura de IA e lançar iniciativas de IA bem-sucedidas com um parceiro confiável. Com 25 anos de experiência em HPC e mais de 75.000 GPUs implantadas desde 2017, a Penguin Solutions é o parceiro estratégico confiável para soluções e serviços de IA e HPC para organizações líderes como Meta, Marinha dos EUA, Labs Sandia e Georgia Tech. Sua solução OriginAI oferece infraestrutura garantida para cargas de trabalho de IA críticas e exigentes.


Artigos patrocinados são conteúdos produzidos por uma empresa que está pagando pelo post ou tem uma relação comercial com a VentureBeat, e são sempre claramente marcados. Para mais informações, entre em contato com sales@venturebeat.com.

    4 × 5 =

    Bolt42