Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba Mais


A resposta a incidentes, que é o processo de lidar com interrupções e lentidões em sistemas, é uma parte crítica das operações de TI. Também é uma atividade que, tradicionalmente, envolve muitos processos manuais e demorados.

Esse é um desafio que a Harness está enfrentando com um novo serviço de resposta a incidentes. A tecnologia entra em acesso antecipado hoje como um módulo na plataforma homônima da empresa. A Harness iniciou suas atividades em 2017 com um foco inicial na automação de integração contínua/entrega contínua (CI/CD) para DevOps. Desde então, a empresa se expandiu para uma plataforma de entrega de software com múltiplos módulos. No outono de 2024, a Harness começou a explorar a IA acionável, inicialmente para ajudar a apoiar o desenvolvimento de software.

Agora, a empresa está estendendo essa mesma base central de IA acionável para a resposta a incidentes. A nova solução também se beneficia de capacidades licenciadas originalmente desenvolvidas pela fornecedora de fluxo de trabalho de desenvolvimento Transposit. Tina Huang, cofundadora da Transposit, juntamente com muitos membros de sua equipe, se juntou à Harness em setembro de 2024.

O objetivo da Harness Incident Response é acelerar o tempo médio até a resolução (MTTR) de um incidente.

“Quando você pensa sobre o que as plataformas DevOps têm sido até agora, trata-se em grande parte de ajudar você a estruturar essas implantações,” disse Huang à VentureBeat. “Acredito que o lugar natural a seguir é: ‘Como posso apoiar suas implantações após elas entrarem em produção?’”

Como a Harness possibilita uma resposta a incidentes autônoma com IA acionável

No núcleo do módulo de resposta a incidentes da Harness está a arquitetura de agentes de IA da empresa, apresentada pela primeira vez em setembro de 2024.

Jyoti Bansal, CEO e cofundador da Harness, explicou à VentureBeat que seus agentes de IA são projetados para fornecer assistência autônoma, indo além de simplesmente alertar os engenheiros sobre incidentes. A tecnologia de resposta a incidentes tradicional utiliza uma abordagem conhecida como playbook. As equipes de TI, muitas vezes trabalhando com engenheiros de confiabilidade de site (SREs), definem playbooks que delineiam processos passo a passo para se recuperar de diferentes tipos de interrupções de serviço.

Em vez de depender apenas de playbooks pré-definidos, os agentes de IA acionável podem sugerir ações, identificar possíveis causas raiz e até criar novos playbooks instantaneamente.

“O fluxo de trabalho acionável sugere as ações que devem ser tomadas,” disse Bansal.

Huang explicou que os agentes de IA executam várias etapas que são críticas para ajudar as organizações a responder mais rapidamente a incidentes. Mesmo antes que um playbook possa ser executado, há uma certa quantidade de triagem que precisa ocorrer, explicou Bansal. A triagem geral pode, por exemplo, identificar quais serviços estão impactados ou determinar tanto as dependências ascendentes quanto as descendentes que também serão afetadas pelo incidente.

O sistema da Harness possui agentes que estão cientes e integrados a múltiplos sistemas, e que podem coletar informações automaticamente, incluindo informações e discussões de canais do Slack. Essas informações podem então ajudar outros agentes a alertar humanos e fornecer assistência autônoma.

Embora o sistema tenha um alto grau de automação, Huang enfatizou que os humanos ainda estão envolvidos. Mas, em vez de um ser humano ser alertado sobre um problema e ter que descobrir se existe um playbook — e, em caso afirmativo, como executá-lo — o sistema recomenda a remediação e o ser humano precisa apenas aprová-la.

A resposta a incidentes requer mais do que apenas tecnologia

O módulo de resposta a incidentes da Harness pode operar de forma independente, o que significa que as organizações não precisam necessariamente estar utilizando outros módulos da Harness.

No entanto, Bansal espera que a oferta combinada — que poderia possibilitar integração com vários outros fluxos de trabalho, incluindo DevOps ou engenharia de caos — possa ser benéfica. A engenharia de caos é o processo de injetar variáveis e eventos inesperados em uma aplicação para ver como ela responde. A Harness tem um módulo de engenharia de caos como parte de sua plataforma desde 2022.

Huang explicou que, como parte da plataforma de resposta a incidentes, uma organização pode realizar ‘exercícios de combate’ junto com o módulo de engenharia de caos para testar diferentes cenários.

“Os incidentes acontecem com pouca frequência, e eles geralmente são o resultado infeliz de algo que você não capturou anteriormente,” disse Huang. “Queremos possibilitar uma abordagem muito proativa para a resposta a incidentes.”

Como as empresas se beneficiarão da resposta a incidentes impulsionada por IA acionável

Um cliente da Harness que está utilizando o módulo de resposta a incidentes é a Tyler Technologies, que desenvolve software para o setor público.

A empresa está utilizando a plataforma da Harness para implantação contínua, gerenciamento de custos na nuvem e desenvolvimento de recursos. A adição da resposta a incidentes poderá ajudar a resolver um desafio importante que enfrentam, explicou Jeff Green, CTO da Tyler Technologies.

“Nosso principal desafio é realmente integrar todos os dados operacionais, métricas e processos, e então correlacioná-los em uma única abordagem unificada para gerenciar incidentes e automatizar nossa resposta a eles,” ele disse à VentureBeat. “Nosso portfólio inclui mais de 100 produtos construídos em diferentes tecnologias usando uma ampla variedade de ferramentas e plataformas DevOps.”

A capacidade de resposta a incidentes será um complemento para as operações existentes que a Tyler Technologies já está realizando com a Harness. Por exemplo, sendo capaz de correlacionar implantações com incidentes ou recursos com incidentes.

“Acreditamos que as capacidades de IA infundidas no produto economizarão muito tempo ajudando-nos com análise de causa raiz, identificando maneiras de mitigar ou resolver incidentes e com a prevenção de incidentes,” disse Green. “Muito desse trabalho hoje é feito por humanos retirando dados de várias fontes, examinando logs e dados de monitoramento de desempenho de aplicativos (APM) e procurando padrões, todas as tarefas que a IA está melhor posicionada para fazer.”

O ROI da IA acionável para a resposta a incidentes

Outro cliente da Harness que está avaliando o módulo de resposta a incidentes é Omar Alwattar, engenheiro de DevOps sênior na InStride.

Alwattar disse à VentureBeat que sua empresa tem utilizado o módulo de Entrega Contínua da Harness. Ele observou que, no que diz respeito à resposta a incidentes, sua organização enfrenta dois desafios principais: monitoramento preventivo e identificação de causas raiz. A nova ferramenta de resposta a incidentes da Harness é interessante para sua empresa, ele disse, pois ajudará na identificação mais rápida de problemas e sugestões automatizadas de correção.

“Em termos de ROI, o impacto mais significativo estaria na redução do tempo de inatividade, pois isso influencia diretamente a conformidade com o SLA e a satisfação do cliente,” disse Alwattar. “Além disso, ao automatizar aspectos da resposta a incidentes, nossa equipe de DevOps de 11 pessoas poderia se concentrar mais em projetos estratégicos e inovação, em vez de resolução constante de problemas.”





    doze − 1 =




    Bolt42