Bolt42

Os modelos de IA o3 e o4-mini, recentemente lançados pela OpenAI, são state-of-the-art em muitos aspectos. No entanto, esses novos modelos ainda apresentam alucinações, ou seja, criam informações fictícias — de fato, eles alucinam mais do que vários modelos mais antigos da OpenAI.

As alucinações provaram ser um dos maiores e mais difíceis problemas a serem resolvidos na IA, afetando até mesmo os sistemas com melhor desempenho atualmente. Historicamente, cada novo modelo melhorou ligeiramente na questão das alucinações, apresentando menos alucinações do que seu predecessor. Mas essa não parece ser a realidade para o3 e o4-mini.

De acordo com os testes internos da OpenAI, o3 e o4-mini, que são chamados de modelos de raciocínio, alucinam com mais frequência do que os modelos de raciocínio anteriores da empresa — o1, o1-mini e o3-mini — assim como os modelos tradicionais de “não raciocínio” da OpenAI, como o GPT-4o.

Talvez mais preocupante, a criadora do ChatGPT realmente não sabe por que isso está acontecendo.

Em seu relatório técnico para o3 e o4-mini, a OpenAI escreve que “mais pesquisas são necessárias” para entender por que as alucinações estão piorando à medida que os modelos de raciocínio são expandidos. O3 e o4-mini apresentam um desempenho melhor em algumas áreas, incluindo tarefas relacionadas à programação e matemática. Mas como eles “fazem mais afirmações no geral”, acabam sendo levados a fazer “mais afirmações precisas, assim como mais afirmações imprecisas/alucinações,” segundo o relatório.

A OpenAI descobriu que o o3 alucinou em resposta a 33% das perguntas no PersonQA, o benchmark interno da empresa para medir a precisão do conhecimento de um modelo sobre pessoas. Isso representa cerca de o dobro da taxa de alucinação dos modelos de raciocínio anteriores da OpenAI, o1 e o3-mini, que apresentaram taxas de 16% e 14,8%, respectivamente. O4-mini teve um desempenho ainda pior no PersonQA — alucinando 48% das vezes.

Testes de terceiros feitos pela Transluce, um laboratório de pesquisa em IA sem fins lucrativos, também encontraram evidências de que o o3 tende a inventar ações que realizou durante o processo de resposta. Em um exemplo, a Transluce observou o o3 afirmando que executou código em um MacBook Pro 2021 “fora do ChatGPT”, depois copiou os números para sua resposta. Embora o o3 tenha acesso a algumas ferramentas, ele não pode fazer isso.

“Nossa hipótese é que o tipo de aprendizado por reforço usado para os modelos da série o pode amplificar problemas que normalmente são mitigados (mas não totalmente erradicados) por pipelines padrão pós-treinamento,” disse Neil Chowdhury, um pesquisador da Transluce e ex-funcionário da OpenAI, em um e-mail ao TechCrunch.

Sarah Schwettmann, cofundadora da Transluce, acrescentou que a taxa de alucinação do o3 pode torná-lo menos útil do que poderia ser.

Kian Katanforoosh, professor adjunto na Stanford e CEO da startup de capacitação Workera, disse ao TechCrunch que sua equipe já está testando o o3 em seus fluxos de trabalho de programação e que o consideram um passo à frente da concorrência. No entanto, Katanforoosh afirma que o o3 tende a alucinar links de websites quebrados. O modelo fornecerá um link que, ao ser clicado, não funciona.

As alucinações podem ajudar os modelos a chegar a ideias interessantes e serem criativos em seu “pensamento,” mas também tornam alguns modelos difíceis de vender para empresas em mercados onde a precisão é primordial. Por exemplo, um escritório de advocacia provavelmente não ficaria satisfeito com um modelo que insere muitos erros factuais em contratos de clientes.

Uma abordagem promissora para aumentar a precisão dos modelos é dar a eles capacidades de busca na web. O GPT-4o da OpenAI com busca na web alcança 90% de precisão no SimpleQA. Potencialmente, a busca poderia melhorar as taxas de alucinação dos modelos de raciocínio também — pelo menos nos casos em que os usuários estão dispostos a expor prompts a um provedor de busca de terceiros.

Se aumentar a escala dos modelos de raciocínio realmente continuar a piorar as alucinações, a busca por uma solução se tornará ainda mais urgente.

“Abordar as alucinações em todos os nossos modelos é uma área de pesquisa contínua, e estamos sempre trabalhando para melhorar sua precisão e confiabilidade,” disse o porta-voz da OpenAI, Niko Felix, em um e-mail ao TechCrunch.

No último ano, a indústria de IA mais ampla mudou seu foco para os modelos de raciocínio depois que as técnicas para melhorar os modelos de IA tradicionais começaram a mostrar retornos decrescentes. O raciocínio melhora o desempenho do modelo em uma variedade de tarefas sem exigir grandes quantidades de computação e dados durante o treinamento. No entanto, parece que o raciocínio também pode levar a mais alucinações — apresentando um desafio.


    dezenove − treze =

    Bolt42