Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder do setor. Saiba Mais
A OpenAI adotou uma abordagem mais agressiva em relação ao red teaming do que seus concorrentes de IA, demonstrando as avançadas capacidades de suas equipes de segurança em duas áreas: reforço em múltiplas etapas e red teaming externo. Recentemente, a OpenAI lançou dois artigos que estabelecem um novo padrão competitivo para melhorar a qualidade, confiabilidade e segurança dos modelos de IA nessas duas técnicas e mais.
O primeiro artigo, “A Abordagem da OpenAI para o Red Teaming Externo”, relata que equipes especializadas de fora da empresa se mostraram eficazes em descobrir vulnerabilidades que poderiam ter passado despercebidas durante os testes internos.
No segundo artigo, “Red Teaming Diversificado e Eficaz com Recompensas Auto-Geradas e Aprendizado de Reforço em Múltiplas Etapas”, a OpenAI introduz uma estrutura automatizada que se baseia em aprendizado de reforço iterativo para gerar uma ampla gama de ataques inovadores e abrangentes.
Investir totalmente em red teaming traz dividendos práticos e competitivos
É encorajador ver a intensidade competitiva em red teaming crescendo entre as empresas de IA. Quando a Anthropic lançou suas diretrizes de red teaming em IA em junho do ano passado, juntou-se a fornecedores de IA, incluindo Google, Microsoft, Nvidia, OpenAI e até mesmo o Instituto Nacional de Padrões e Tecnologia dos EUA (NIST), que todos haviam lançado frameworks de red teaming.
Investir pesadamente em red teaming traz benefícios tangíveis para os líderes de segurança em qualquer organização. O artigo da OpenAI sobre red teaming externo oferece uma análise detalhada de como a empresa busca criar equipes externas especializadas, que incluem especialistas em cibersegurança e em áreas específicas. O objetivo é ver se equipes externas conhecedoras podem derrotar as barreiras de segurança dos modelos e descobrir lacunas em sua segurança, viéses e controles que os testes baseados em prompts não conseguiram identificar.
O que torna os artigos recentes da OpenAI dignos de nota é como definem usando um design de ser humano no meio para combinar a experiência humana e a inteligência contextual de um lado com técnicas baseadas em IA do outro.
“Quando o red teaming automatizado é complementado por insights humanos direcionados, a estratégia de defesa resultante se torna significativamente mais resiliente”, escreve a OpenAI no primeiro artigo (Ahmad et al., 2024).
A premissa da empresa é que usar testadores externos para identificar os cenários do mundo real de maior impacto, enquanto também se avaliam as saídas de IA, leva a melhorias contínuas do modelo. A OpenAI argumenta que combinar esses métodos fornece uma defesa em múltiplas camadas para seus modelos, identificando vulnerabilidades potenciais rapidamente. Capturar e melhorar modelos com a inteligência contextual humana possibilitada por um design humano no meio está se provando essencial para o red teaming de modelos de IA.
Por que o red teaming é a espinha dorsal estratégica da segurança em IA
O red teaming emergiu como o método preferido para testar iterativamente modelos de IA. Esse tipo de teste simula uma variedade de ataques letais e imprevisíveis e visa identificar seus pontos mais potentes e mais fracos. Modelos de IA generativa (gen AI) são difíceis de serem testados apenas por meios automatizados, pois imitam conteúdo gerado por humanos em escala. As práticas descritas nos dois artigos da OpenAI buscam fechar as lacunas que os testes automatizados deixaram, medindo e verificando as alegações de segurança e proteção de um modelo.
No primeiro artigo (“A Abordagem da OpenAI para o Red Teaming Externo”) a OpenAI explica que o red teaming é “um esforço de teste estruturado para encontrar falhas e vulnerabilidades em um sistema de IA, muitas vezes em um ambiente controlado e em colaboração com desenvolvedores” (Ahmad et al., 2024). Comprometida em liderar a indústria em red teaming, a empresa teve mais de 100 red teamers externos designados para trabalhar em uma ampla base de cenários adversariais durante a avaliação pré-lançamento do GPT-4.
A empresa de pesquisa Gartner reforça o valor do red teaming em suas previsões, prevendo que os gastos de TI em IA generativa dispararão de $5 bilhões em 2024 para $39 bilhões até 2028. A Gartner observa que a rápida adoção de IA generativa e a proliferação de LLMs estão expandindo significativamente as superfícies de ataque desses modelos, tornando o red teaming essencial em qualquer ciclo de lançamento.
Insights práticos para líderes de segurança
Embora os líderes de segurança tenham percebido rapidamente o valor do red teaming, poucos estão seguindo adiante com o compromisso de realizá-lo. Uma pesquisa recente da Gartner descobriu que, enquanto 73% das organizações reconhecem a importância de equipes de red teaming dedicadas, apenas 28% realmente as mantêm. Para fechar essa lacuna, um framework simplificado é necessário, que pode ser aplicado em escala às necessidades de red teaming de qualquer novo modelo, aplicativo ou plataforma.
No seu artigo sobre red teaming externo, a OpenAI define quatro etapas-chave para usar um design de ser humano no meio e aproveitar ao máximo os insights humanos:
- Definindo escopo de testes e equipes: Baseando-se em especialistas e profissionais em áreas-chave de cibersegurança, geopolítica e ciências naturais, a OpenAI foca em riscos que incluem imitação de voz e viés. A capacidade de recrutar especialistas funcionais cruzados é, portanto, crucial. (Para uma apreciação de quão comprometida a OpenAI está com essa metodologia e suas implicações para deter deepfakes, veja nosso artigo “GPT-4: O escudo da OpenAI contra a ameaça de $40B do deepfake para empresas”.)
- Selecionando versões de modelos para teste e, em seguida, iterando-as entre equipes diversas: Ambos os artigos da OpenAI enfatizam que ciclar equipes de red teaming e modelos usando uma abordagem iterativa oferece os resultados mais perspicazes. Permitir que cada equipe de red teaming passe por todos os modelos favorece um maior aprendizado da equipe sobre o que funciona e o que não funciona.
- Documentação e orientação claras: A consistência nos testes requer APIs bem documentadas, formatos de relatórios padronizados e ciclos de feedback explícitos. Estes são elementos essenciais para um red teaming bem-sucedido.
- Asegurando que os insights se traduzam em mitigação prática e duradoura: Uma vez que as equipes de red teaming registram vulnerabilidades, elas impulsionam atualizações direcionadas aos modelos, políticas e planos operacionais — garantindo que as estratégias de segurança evoluam em sintonia com as ameaças emergentes.
Escalando testes adversariais com GPT-4T: A próxima fronteira no red teaming
As metodologias de red teaming das empresas de IA estão demonstrando que, embora a expertise humana seja intensiva em recursos, continua sendo crucial para testes aprofundados de modelos de IA.
No segundo artigo da OpenAI, “Red Teaming Diversificado e Eficaz com Recompensas Auto-Geradas e Aprendizado de Reforço em Múltiplas Etapas” (Beutel et al., 2024), a OpenAI aborda o desafio de escalar testes adversariais usando uma abordagem automatizada e multifacetada que combina insights humanos com estratégias de ataque geradas por IA.
O núcleo dessa metodologia é o GPT-4T, uma variante especializada do modelo GPT-4 projetada para produzir uma ampla gama de cenários adversariais.
Aqui está como cada componente da metodologia contribui para uma estrutura de testes adversariais mais forte:
- Diversificação de objetivos: A OpenAI descreve como está utilizando o GPT-4T para criar um amplo espectro de cenários, começando com prompts que inicialmente parecem benignos e progredindo para campanhas de phishing mais sofisticadas. A diversificação de objetivos foca em antecipar e explorar a mais ampla gama possível de potenciais explorações. Usando a capacidade do GPT-4T para gerar uma linguagem diversificada, a OpenAI sustenta que as equipes de red teaming evitam a visão limitada e permanecem focadas na investigação de vulnerabilidades que os métodos exclusivos manuais podem deixar passar.
- Aprendizado de reforço (RL): Uma estrutura de RL em múltiplas etapas recompensando a descoberta de vulnerabilidades novas e previamente não vistas. O objetivo é treinar a equipe de red teaming automatizada, melhorando cada iteração. Isso permite que os líderes de segurança se concentrem em riscos genuínos, ao invés de vasculhar volumes de alertas de baixo impacto. Alinha-se com a projeção da Gartner de uma queda de 30% em falsos positivos atribuíveis a IA generativa em testes de segurança de aplicativos até 2027. A OpenAI escreve: “Nossa abordagem de RL em múltiplas etapas recompensa sistematicamente a descoberta de vulnerabilidades recém-identificadas, promovendo a melhoria contínua no teste adversarial.”
- Recompensas auto-geradas: A OpenAI define isso como um sistema que rastreia e atualiza pontuações para sucessos parciais pelas equipes de red teaming, atribuindo recompensas incrementais por identificar cada área fraca não protegida de um modelo.
Segurando o futuro da IA: Principais conclusões para líderes de segurança
Os artigos recentes da OpenAI mostram porque um processo estruturado e iterativo que combina testes internos e externos fornece os insights necessários para manter a melhoria da precisão, segurança e qualidade dos modelos.
As principais conclusões para os líderes de segurança a partir desses artigos devem incluir:
Investir totalmente e adotar uma abordagem multifacetada para o red teaming. Os artigos enfatizam o valor de combinar equipes externas lideradas por humanos com simulações em tempo real de ataques de IA gerados aleatoriamente, pois refletem como os tentativas de intrusão caóticas podem ser. A OpenAI argumenta que enquanto os humanos são excelentes em identificar lacunas contextuais, incluindo viéses, os sistemas automatizados identificam fraquezas que surgem apenas sob testes estressantes e ataques sofisticados repetidos.
Teste cedo e continuamente durante os ciclos de desenvolvimento do modelo. Os documentos brancos fazem um argumento convincente contra esperar por modelos prontos para produção e, em vez disso, começar os testes com versões em estágio inicial. O objetivo é encontrar riscos emergentes e retestar mais tarde para garantir que as lacunas nos modelos tenham sido fechadas antes do lançamento.
Sempre que possível, simplifique a documentação e o feedback com ciclos de feedback em tempo real. Relatórios padronizados e APIs bem documentadas, juntamente com ciclos de feedback explícitos, ajudam a converter as descobertas da equipe de red teaming em mitigções acionáveis e rastreáveis. A OpenAI enfatiza a necessidade de colocar esse processo em prática antes de iniciar o red teaming, para acelerar soluções e remediações de áreas problemáticas.
Usar aprendizado de reforço em tempo real é criticamente importante, assim como o futuro do red teaming em IA. A OpenAI defende a automação de frameworks que recompensem descobertas de novos vetores de ataque como parte central dos ciclos de feedback em tempo real. O objetivo do RL é criar um ciclo contínuo de melhoria.
Não se contente com nada menos que insights acionáveis do processo de red teaming. É essencial tratar cada descoberta ou resultado da equipe de red teaming como um catalisador para atualizar estratégias de segurança, aprimorar planos de resposta a incidentes e reformular diretrizes conforme necessário.
Inclua no orçamento a despesa adicional de contratar expertise externa para as equipes de red teaming. Uma premissa central da abordagem da OpenAI para o red teaming é recrutar ativamente especialistas externos que tenham perspectivas informadas e conhecimento sobre ameaças avançadas. Áreas de expertise valiosas para as equipes de red teaming de modelos de IA incluem tecnologia de deepfake, engenharia social, roubo de identidade, criação de identidade sintética e fraudes baseadas em voz. “Envolver especialistas externos frequentemente revela caminhos de ataque ocultos, incluindo engenharia social sofisticada e ameaças de deepfake.” (Ahmad et al., 2024)
Artigos:
Beutel, A., Xiao, K., Heidecke, J., & Weng, L. (2024). “Red Teaming Diversificado e Eficaz com Recompensas Auto-Geradas e Aprendizado de Reforço em Múltiplas Etapas.” OpenAI.
Ahmad, L., Agarwal, S., Lampe, M., & Mishkin, P. (2024). “A Abordagem da OpenAI para o Red Teaming Externo para Modelos e Sistemas de IA.” OpenAI.
Insigts diários sobre casos de uso empresarial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós trazemos informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Veja mais boletins do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
Criações de IA editadas por humanos podem ser provavelmente protegidas por direitos autorais nos EUA, afirma agência
[the_ad id="145565"] Nos EUA, criações geradas por IA — livros, filmes e assim por diante — que foram editadas por um ser humano provavelmente podem ser protegidas por direitos…
Ai2 lança o Tülu 3, um modelo totalmente open-source que supera o DeepSeek v3 e o GPT-4o com uma nova abordagem de pós-treinamento.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA de liderança no setor. Saiba…
Microsoft lança Surface Pro e Laptop PCs com foco em Copilot, disponíveis com opções Snapdragon e Intel.
[the_ad id="145565"] Na quinta-feira, durante um evento em Nova York, a Microsoft apresentou duas novidades na linha de PCs Surface. O novo Surface Pro e o Surface Laptop…