Os mais recentes modelos de IA da OpenAI têm uma nova medida de segurança para prevenir bioriscos.

A OpenAI afirmou que implementou um novo sistema para monitorar seus mais recentes modelos de raciocínio em IA, o3 e o4-mini, para prompts relacionados a ameaças biológicas e químicas. O objetivo do sistema é impedir que os modelos ofereçam conselhos que possam orientar alguém a realizar ataques potencialmente prejudiciais, de acordo com o relatório de segurança da OpenAI.

A OpenAI diz que o o3 e o o4-mini representam um aumento significativo de capacidade em relação aos modelos anteriores da empresa e, portanto, apresentam novos riscos nas mãos de indivíduos mal-intencionados. Segundo as avaliações internas da OpenAI, o o3 é mais habilidoso em responder perguntas sobre a criação de certos tipos de ameaças biológicas em particular. Por essa razão — e para mitigar outros riscos — a OpenAI criou o novo sistema de monitoramento, que a empresa descreve como um “monitor de raciocínio focado em segurança”.

O monitor, treinado especificamente para raciocinar sobre as políticas de conteúdo da OpenAI, opera sobre o o3 e o o4-mini. Ele é projetado para identificar prompts relacionados a riscos biológicos e químicos e instruir os modelos a se recusarem a oferecer conselhos sobre esses tópicos.

Para estabelecer uma linha de base, a OpenAI fez com que equipes de teste passassem cerca de 1.000 horas sinalizando conversas “inseguras” relacionadas a bioriscos de o3 e o4-mini. Durante um teste em que a OpenAI simulou a “lógica de bloqueio” de seu monitor de segurança, os modelos se recusaram a responder a prompts arriscados 98,7% das vezes, segundo a OpenAI.

A OpenAI reconhece que seu teste não considerou pessoas que possam tentar novos prompts após serem bloqueadas pelo monitor, razão pela qual a empresa afirma que continuará a se apoiar, em parte, no monitoramento humano.

O o3 e o o4-mini não ultrapassam o limite de “alto risco” da OpenAI para bioriscos. No entanto, em comparação com o o1 e o GPT-4, a OpenAI afirma que versões iniciais do o3 e o o4-mini se mostraram mais úteis para responder perguntas sobre o desenvolvimento de armas biológicas.

Gráfico do cartão de sistema do o3 e o o4-mini (Imagem: OpenAI)

A empresa está acompanhando ativamente como seus modelos poderiam facilitar o desenvolvimento de ameaças químicas e biológicas por usuários mal-intencionados, de acordo com o Framework de Preparação recentemente atualizado da OpenAI.

A OpenAI está cada vez mais dependendo de sistemas automáticos para mitigar os riscos de seus modelos. Por exemplo, para evitar que o gerador de imagem nativo do GPT-4 crie material de abuso sexual infantil (CSAM), a OpenAI afirma usar um monitor de raciocínio semelhante ao que a empresa implantou para o o3 e o o4-mini.

No entanto, vários pesquisadores expressaram preocupações de que a OpenAI não está priorizando a segurança tanto quanto deveria. Um dos parceiros de teste de equipe da empresa, a Metr, disse que teve um tempo relativamente curto para testar o o3 em uma referência para comportamento enganoso. Enquanto isso, a OpenAI decidiu não divulgar um relatório de segurança para seu modelo GPT-4.1, que foi lançado no início desta semana.

Conteúdo relacionado

BusinessInteligência artificial

Os mais recentes modelos de IA da OpenAI têm uma nova medida de segurança para prevenir bioriscos.

Conteúdo relacionado

Pesquisador de IA renomado lança startup polêmica para substituir todos os trabalhadores humanos em todos os lugares

ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’

De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.