Bolt42

A OpenAI atualizou seu Framework de Preparação — o sistema interno que utiliza para avaliar a segurança de modelos de IA e determinar as salvaguardas necessárias durante o desenvolvimento e a implantação. No comunicado, a OpenAI afirmou que pode “ajustar” suas exigências de segurança se um laboratório de IA concorrente lançar um sistema de “alto risco” sem as mesmas proteções em vigor.

A mudança reflete a crescente pressão competitiva sobre os desenvolvedores comerciais de IA para implantar modelos rapidamente. A OpenAI tem sido acusada de diminuir os padrões de segurança em favor de lançamentos mais rápidos, e de falhar em fornecer relatórios pontuais detalhando seus testes de segurança. Na semana passada, 12 ex-funcionários da OpenAI apresentaram um parecer no caso de Elon Musk contra a OpenAI, argumentando que a empresa seria incentivada a cortar ainda mais medidas em segurança caso completasse a reestruturação corporativa planejada.

Talvez antecipando críticas, a OpenAI afirma que não faria esses ajustes de política levianamente, e que manteria suas salvaguardas em “um nível mais protetor.”

“Se outro desenvolvedor de IA de fronteira lançar um sistema de alto risco sem salvaguardas comparáveis, podemos ajustar nossas exigências,” escreveu a OpenAI em um postagem no blog publicada na tarde de terça-feira. “No entanto, primeiro confirmaremos rigorosamente que o cenário de risco realmente mudou, reconheceremos publicamente que estamos fazendo um ajuste, avaliaremos que o ajuste não aumenta significativamente o risco geral de dano severo e ainda manteremos salvaguardas em um nível mais protetor.”

O Framework de Preparação atualizado também deixa claro que a OpenAI está confiando mais em avaliações automatizadas para acelerar o desenvolvimento de produtos. A empresa afirma que, embora não tenha abandonado completamente o teste conduzido por humanos, construiu “um conjunto crescente de avaliações automatizadas” que supostamente podem “acompanhar um [lançamento] mais rápido.”

Alguns relatórios contradizem isso. De acordo com o Financial Times, a OpenAI deu aos testadores menos de uma semana para verificações de segurança para um próximo modelo importante — um cronograma comprimido em comparação com lançamentos anteriores. As fontes da publicação também alegaram que muitos dos testes de segurança da OpenAI agora são realizados em versões anteriores dos modelos, em vez das versões lançadas ao público.

Em declarações, a OpenAI contestou a noção de que está comprometendo a segurança.

Outras mudanças no framework da OpenAI dizem respeito a como a empresa categoriza modelos de acordo com o risco, incluindo modelos que podem ocultar suas capacidades, evadir salvaguardas, prevenir seu desligamento e até mesmo se autorreplicar. A OpenAI afirma que agora vai focar em se os modelos atendem a um de dois limiares: “alta” capacidade ou “capacidade crítica.”

A definição da OpenAI do primeiro é um modelo que poderia “amplificar caminhos existentes para danos severos.” Os últimos são modelos que “introduzem novos caminhos sem precedentes para danos severos,” segundo a empresa.

“Os sistemas cobertos que atingirem alta capacidade devem ter salvaguardas que minimizem suficientemente o risco associado de danos severos antes de serem implantados,” escreveu a OpenAI em sua postagem no blog. “Sistemas que atingirem capacidade crítica também requerem salvaguardas que minimizem suficientemente os riscos associados durante o desenvolvimento.”

As atualizações são as primeiras que a OpenAI fez no Framework de Preparação desde 2023.


    2 × cinco =

    Bolt42