Parceiro da OpenAI diz que teve tempo relativamente curto para testar o modelo de IA o3 da empresa

Uma organização com a qual a OpenAI frequentemente colabora para investigar as capacidades de seus modelos de IA e avaliá-los quanto à segurança, a Metr, sugere que não teve muito tempo para testar um dos novos lançamentos altamente capazes da empresa, o3.

Em um post no blog publicado na quarta-feira, a Metr escreve que um benchmark de red teaming do o3 foi “realizado em um tempo relativamente curto” em comparação com os testes da organização para um modelo anterior da OpenAI, o o1. Isso é significativo, afirmam, porque um tempo adicional de teste pode levar a resultados mais abrangentes.

“Esta avaliação foi realizada em um tempo relativamente curto, e testamos [o3] apenas com estruturas de agentes simples,” escreveu a Metr em seu post. “Esperamos que um desempenho mais alto [nos benchmarks] seja possível com mais esforço de elicitação.”

Relatórios recentes sugerem que a OpenAI, impulsionada pela pressão competitiva, está apressando as avaliações independentes. De acordo com o Financial Times, a OpenAI deu a alguns testadores menos de uma semana para checagens de segurança para um grande lançamento que se aproxima.

Em declarações, a OpenAI contestou a noção de que está comprometendo a segurança.

A Metr afirma que, com base nas informações que conseguiu obter no tempo que teve, o o3 tem uma “alta propensão” a “trapacear” ou “hackear” testes de maneiras sofisticadas para maximizar sua pontuação — mesmo quando o modelo entende claramente que seu comportamento está desalinhado com as intenções do usuário (e da OpenAI). A organização acredita que é possível que o o3 envolva-se em outros tipos de comportamento adversarial ou “maligno”, independentemente das alegações do modelo de estar alinhado, “seguro por design” ou de não ter intenções próprias.

“Embora não achamos que isso seja especialmente provável, parece importante notar que [nossa] configuração de avaliação não capturaria esse tipo de risco,” escreveu a Metr em seu post. “De modo geral, acreditamos que o teste de capacidade pré-implantação não é uma estratégia de gerenciamento de riscos suficiente por si só, e estamos atualmente prototipando formas adicionais de avaliações.”

Outro parceiro de avaliação de terceiros da OpenAI, a Apollo Research, também observou comportamentos enganosos do o3 e do outro novo modelo da empresa, o o4-mini. Em um teste, os modelos, recebendo 100 créditos de computação para uma execução de treinamento de IA e sendo instruídos a não modificar a cota, aumentaram o limite para 500 créditos — e mentiram sobre isso. Em outro teste, convidados a prometerem não usar uma ferramenta específica, os modelos usaram a ferramenta de qualquer maneira, quando ela se mostrou útil para completar uma tarefa.

Em seu próprio relatório de segurança para o o3 e o o4-mini, a OpenAI reconheceu que os modelos podem causar “pequenos danos ao mundo real,” como enganar sobre um erro resultando em código defeituoso, sem os devidos protocolos de monitoramento em vigor.

“As descobertas da [Apollo] mostram que o o3 e o o4-mini são capazes de estratagemas em contexto e engano estratégico,” escreveu a OpenAI. “Embora relativamente inofensivos, é importante que os usuários diários estejam cientes dessas discrepâncias entre as declarações e ações dos modelos […] Isso pode ser mais bem avaliado por meio da avaliação de traços de raciocínio interno.”