Bolt42

A OpenAI afirmou que implementou um novo sistema para monitorar seus mais recentes modelos de raciocínio em IA, o3 e o4-mini, para prompts relacionados a ameaças biológicas e químicas. O objetivo do sistema é impedir que os modelos ofereçam conselhos que possam orientar alguém a realizar ataques potencialmente prejudiciais, de acordo com o relatório de segurança da OpenAI.

A OpenAI diz que o o3 e o o4-mini representam um aumento significativo de capacidade em relação aos modelos anteriores da empresa e, portanto, apresentam novos riscos nas mãos de indivíduos mal-intencionados. Segundo as avaliações internas da OpenAI, o o3 é mais habilidoso em responder perguntas sobre a criação de certos tipos de ameaças biológicas em particular. Por essa razão — e para mitigar outros riscos — a OpenAI criou o novo sistema de monitoramento, que a empresa descreve como um “monitor de raciocínio focado em segurança”.

O monitor, treinado especificamente para raciocinar sobre as políticas de conteúdo da OpenAI, opera sobre o o3 e o o4-mini. Ele é projetado para identificar prompts relacionados a riscos biológicos e químicos e instruir os modelos a se recusarem a oferecer conselhos sobre esses tópicos.

Para estabelecer uma linha de base, a OpenAI fez com que equipes de teste passassem cerca de 1.000 horas sinalizando conversas “inseguras” relacionadas a bioriscos de o3 e o4-mini. Durante um teste em que a OpenAI simulou a “lógica de bloqueio” de seu monitor de segurança, os modelos se recusaram a responder a prompts arriscados 98,7% das vezes, segundo a OpenAI.

A OpenAI reconhece que seu teste não considerou pessoas que possam tentar novos prompts após serem bloqueadas pelo monitor, razão pela qual a empresa afirma que continuará a se apoiar, em parte, no monitoramento humano.

O o3 e o o4-mini não ultrapassam o limite de “alto risco” da OpenAI para bioriscos. No entanto, em comparação com o o1 e o GPT-4, a OpenAI afirma que versões iniciais do o3 e o o4-mini se mostraram mais úteis para responder perguntas sobre o desenvolvimento de armas biológicas.

Gráfico do cartão de sistema do o3 e o o4-mini (Imagem: OpenAI)

A empresa está acompanhando ativamente como seus modelos poderiam facilitar o desenvolvimento de ameaças químicas e biológicas por usuários mal-intencionados, de acordo com o Framework de Preparação recentemente atualizado da OpenAI.

A OpenAI está cada vez mais dependendo de sistemas automáticos para mitigar os riscos de seus modelos. Por exemplo, para evitar que o gerador de imagem nativo do GPT-4 crie material de abuso sexual infantil (CSAM), a OpenAI afirma usar um monitor de raciocínio semelhante ao que a empresa implantou para o o3 e o o4-mini.

No entanto, vários pesquisadores expressaram preocupações de que a OpenAI não está priorizando a segurança tanto quanto deveria. Um dos parceiros de teste de equipe da empresa, a Metr, disse que teve um tempo relativamente curto para testar o o3 em uma referência para comportamento enganoso. Enquanto isso, a OpenAI decidiu não divulgar um relatório de segurança para seu modelo GPT-4.1, que foi lançado no início desta semana.


    3 × quatro =

    Bolt42