Organização de avaliação de IA é criticada por adiar a divulgação de financiamento da OpenAI

Uma organização que desenvolve benchmarks matemáticos para IA não divulgou que havia recebido financiamento da OpenAI até recentemente, gerando alegações de impropriedade por parte de alguns membros da comunidade de IA.

A Epoch AI, uma organização sem fins lucrativos, principal mente financiada pela Open Philanthropy, uma fundação de pesquisa e concessão de prêmios, revelou no dia 20 de dezembro que a OpenAI havia apoiado a criação do FrontierMath. O FrontierMath, um teste com problemas de nível especialista projetado para medir as habilidades matemáticas de uma IA, foi um dos benchmarks usados pela OpenAI para demonstrar sua próxima IA principal, o3.

Em uma postagem no fórum LessWrong, um contratado da Epoch AI com o nome de usuário “Meemi” afirma que muitos colaboradores do benchmark FrontierMath não foram informados sobre o envolvimento da OpenAI até que isso fosse tornado público.

“A comunicação sobre isso foi não transparente,” escreveu Meemi. “Na minha opinião, a Epoch AI deveria ter divulgado o financiamento da OpenAI, e os contratados deveriam ter informações transparentes sobre o potencial de seu trabalho ser usado para capacidades, ao escolher se trabalhar ou não em um benchmark.”

Nas redes sociais, alguns usuários levantaram preocupações de que o sigilo poderia prejudicar a reputação do FrontierMath como um benchmark objetivo. Além de apoiar o FrontierMath, a OpenAI teve acesso a muitos dos problemas e soluções do benchmark — um fato que a Epoch AI não divulgou antes de 20 de dezembro, quando o o3 foi anunciado.

Em uma resposta à postagem de Meemi, Tamay Besiroglu, diretor associado da Epoch AI e um dos cofundadores da organização, afirmou que a integridade do FrontierMath não havia sido comprometida, mas admitiu que a Epoch AI “cometeu um erro” ao não ser mais transparente.

“Fomos restringidos de divulgar a parceria até por volta da época do lançamento do o3, e olhando para trás, deveríamos ter negociado mais firmemente a possibilidade de sermos transparentes com os colaboradores do benchmark o mais rápido possível,” escreveu Besiroglu. “Nossos matemáticos mereciam saber quem poderia ter acesso ao seu trabalho. Mesmo que estivéssemos limitados contratualmente no que podíamos dizer, deveríamos ter tornado a transparência com nossos colaboradores uma parte não negociável de nosso acordo com a OpenAI.”

Besiroglu acrescentou que, embora a OpenAI tenha acesso ao FrontierMath, há um “acordo verbal” com a Epoch AI de que não usará o conjunto de problemas do FrontierMath para treinar sua IA. (Treinar uma IA com o FrontierMath seria semelhante a ensinar para o teste.) A Epoch AI também possui um “conjunto separado de retenção” que serve como uma salvaguarda adicional para a verificação independente dos resultados do benchmark FrontierMath, disse Besiroglu.

“A OpenAI tem … apoiado totalmente nossa decisão de manter um conjunto de retenção separado e não visível,” escreveu Besiroglu.

No entanto, complicando as coisas, o principal matemático da Epoch AI, Ellot Glazer, observou em uma postagem no Reddit que a Epoch AI não conseguiu verificar independentemente os resultados do FrontierMath do o3.

“Minha opinião pessoal é que a pontuação da [OpenAI] é legítima (ou seja, eles não treinaram no conjunto de dados), e que eles não têm incentivos para mentir sobre desempenhos de benchmark interno,” disse Glazer. “No entanto, não podemos garantir isso até que nossa avaliação independente esteja completa.”

A saga é mais um exemplo do desafio de desenvolver benchmarks empíricos para avaliar IA — e de assegurar os recursos necessários para o desenvolvimento de benchmarks sem criar a percepção de conflitos de interesse.