Como (e por que) o aprendizado federado aprimora a cibersegurança

Participe de nossos boletins informativos diários e semanais para as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder no setor. Saiba Mais

A cada ano, os ciberataques se tornam mais frequentes e as violações de dados se tornam mais onerosas. Seja para proteger seu sistema de IA durante o desenvolvimento ou usar seu algoritmo para aprimorar sua postura de segurança, as empresas devem mitigar os riscos de cibersegurança. O aprendizado federado pode ser a solução para ambos.

O que é aprendizado federado?

O aprendizado federado é uma abordagem ao desenvolvimento de IA em que várias partes treinam um único modelo separadamente. Cada parte baixa o algoritmo principal atual de um servidor central na nuvem. Eles treinam sua configuração de maneira independente em servidores locais e fazem o upload ao concluírem. Dessa forma, eles podem compartilhar dados remotamente sem expor dados brutos ou parâmetros do modelo.

O algoritmo centralizado pondera o número de amostras recebidas de cada configuração treinada de forma distinta, agregando-as para criar um único modelo global. Todas as informações permanecem nos servidores ou dispositivos locais de cada participante — o repositório centralizado pesa as atualizações em vez de processar os dados brutos.

A popularidade do aprendizado federado está aumentando rapidamente, pois aborda preocupações comuns relacionadas à segurança durante o desenvolvimento. Também é muito procurado por suas vantagens de desempenho. Pesquisas mostram que essa técnica pode melhorar a precisão de um modelo de classificação de imagens em até 20% — um aumento substancial.

Aprendizado federado horizontal

Existem dois tipos de aprendizado federado. A opção convencional é o aprendizado federado horizontal. Nessa abordagem, os dados são particionados entre vários dispositivos. Os conjuntos de dados compartilham espaços de recursos, mas possuem amostras diferentes. Isso permite que os nós de borda treinem colaborativamente um modelo de aprendizado de máquina (ML) sem compartilhar informações.

Aprendizado federado vertical

No aprendizado federado vertical, o oposto é verdadeiro — as características diferem, mas as amostras são as mesmas. As características são distribuídas verticalmente entre os participantes, cada um possuindo diferentes atributos sobre o mesmo conjunto de entidades. Como apenas uma parte tem acesso ao conjunto completo de rótulos de amostra, essa abordagem preserva a privacidade.

Como o aprendizado federado fortalece a cibersegurança

O desenvolvimento tradicional é suscetível a lacunas de segurança. Embora os algoritmos precisem de conjuntos de dados amplos e relevantes para manter a precisão, envolver vários departamentos ou fornecedores cria aberturas para atores maliciosos. Eles podem explorar a falta de visibilidade e a ampla superfície de ataque para injetar viés, conduzir engenharia exploratória ou exfiltrar dados de treinamento sensíveis.

Quando os algoritmos são implantados em funções de cibersegurança, seu desempenho pode afetar a postura de segurança de uma organização. Pesquisas mostram que a precisão do modelo pode diminuir abruptamente ao processar novos dados. Embora os sistemas de IA possam parecer precisos, eles podem falhar quando testados em outros lugares porque aprenderam a adotar atalhos enganadores para produzir resultados convincentes.

Como a IA não pode pensar criticamente ou considerar genuinamente o contexto, sua precisão diminui com o tempo. Mesmo que os modelos de ML evoluam à medida que absorvem novas informações, seu desempenho estagnarão se suas habilidades de tomada de decisão forem baseadas em atalhos. É aí que o aprendizado federado se torna relevante.

Outros benefícios notáveis de treinar um modelo centralizado por meio de atualizações disparatadas incluem privacidade e segurança. Como cada participante trabalha de forma independente, ninguém precisa compartilhar informações proprietárias ou sensíveis para avançar no treinamento. Além disso, quanto menos transferências de dados houver, menor será o risco de ataque man-in-the-middle (MITM).

Todas as atualizações são criptografadas para agregação segura. A computação multipartidária as oculta atrás de várias esquemas de criptografia, diminuindo as chances de uma violação ou ataque MITM. Isso melhora a colaboração enquanto minimiza os riscos, resultando em uma melhor postura de segurança.

Uma vantagem frequentemente negligenciada do aprendizado federado é a velocidade. Ele possui uma latência muito menor do que seu equivalente centralizado. Como o treinamento acontece localmente em vez de em um servidor central, o algoritmo pode detectar, classificar e responder a ameaças muito mais rapidamente. Atrasos mínimos e transmissões de dados rápidas permitem que os profissionais de cibersegurança lidem com agentes maliciosos com facilidade.

Considerações para profissionais de cibersegurança

Antes de aproveitar essa técnica de treinamento, engenheiros de IA e equipes de cibersegurança devem considerar vários fatores técnicos, de segurança e operacionais.

Uso de recursos

O desenvolvimento de IA é caro. Equipes que estão criando seu próprio modelo devem esperar gastar entre $5 milhões a $200 milhões inicialmente, e mais de $5 milhões anualmente para manutenção. O compromisso financeiro é significativo, mesmo com os custos distribuídos entre várias partes. Os líderes empresariais devem contabilizar os custos de computação em nuvem e de borda.

O aprendizado federado também é intensivo em computação, o que pode introduzir limitações de largura de banda, espaço de armazenamento ou computação. Enquanto a nuvem possibilita escalabilidade sob demanda, as equipes de cibersegurança correm o risco de dependência de fornecedores se não forem cautelosas. A seleção estratégica de hardware e fornecedores é de extrema importância.

Confiança dos participantes

Embora o treinamento disparatado seja seguro, falta transparência, levando a preocupações sobre viés intencional e injeção maliciosa. Um mecanismo de consenso é essencial para aprovar as atualizações do modelo antes que o algoritmo centralizado as agregue. Dessa forma, é possível minimizar o risco de ameaças sem sacrificar a confidencialidade ou expor informações sensíveis.

Segurança dos dados de treinamento

Embora essa técnica de treinamento de aprendizado de máquina possa melhorar a postura de segurança de uma empresa, não existe segurança 100%. Desenvolver um modelo na nuvem envolve o risco de ameaças internas, erro humano e perda de dados. A redundância é fundamental. As equipes devem criar backups para evitar interrupções e reverter atualizações, se necessário.

Os tomadores de decisão devem rever as fontes de seus conjuntos de dados de treinamento. Nas comunidades de ML, ocorre o empréstimo significativo de conjuntos de dados, levantando preocupações bem fundamentadas sobre desalinhamento de modelos. No Papers With Code, mais de 50% das comunidades de tarefas usam conjuntos de dados emprestados pelo menos 57,8% do tempo. Além disso, 50% dos conjuntos de dados lá provêm de apenas 12 universidades.

Aplicações do aprendizado federado na cibersegurança

Uma vez que o algoritmo principal agrega e pondera as atualizações dos participantes, ele pode ser compartilhado novamente para a aplicação desejada. As equipes de cibersegurança podem usá-lo para detecção de ameaças. A vantagem aqui é dupla — enquanto os agentes maliciosos ficam adivinhando, pois não conseguem facilmente exfiltrar dados, os profissionais reúnem insights para uma saída altamente precisa.

O aprendizado federado é ideal para aplicações adjacentes, como classificação de ameaças ou detecção de indicadores de compromisso. O grande tamanho do conjunto de dados e o extenso treinamento da IA constroem sua base de conhecimento, curando uma vasta expertise. Os profissionais de cibersegurança podem usar o modelo como um mecanismo de defesa unificado para proteger amplas superfícies de ataque.

Os modelos de ML — especialmente aqueles que fazem previsões — são propensos a desvio ao longo do tempo, à medida que conceitos evoluem ou variáveis se tornam menos relevantes. Com o aprendizado federado, as equipes poderiam atualizar periodicamente seu modelo com recursos ou amostras de dados variados, resultando em insights mais precisos e oportunos.

Aproveitando o aprendizado federado para cibersegurança

Se as empresas desejam proteger seu conjunto de dados de treinamento ou usar IA para detecção de ameaças, devem considerar a utilização do aprendizado federado. Essa técnica pode melhorar a precisão e o desempenho, além de fortalecer sua postura de segurança, desde que naveguem estrategicamente pelas potenciais ameaças internas ou riscos de violação.

Zac Amos é editor de recursos do ReHack.

DataDecisionMakers

Bem-vindo à comunidade VentureBeat!

DataDecisionMakers é onde especialistas, incluindo as pessoas técnicas que trabalham com dados, podem compartilhar insights e inovações relacionados a dados.

Se você deseja ler sobre ideias inovadoras e informações atualizadas, melhores práticas e o futuro dos dados e da tecnologia de dados, junte-se a nós no DataDecisionMakers.

Você pode até considerar contribuir com um artigo seu!