Laboratórios de IA como a OpenAI afirmam que seus modelos de IA “raciocínio”, que conseguem “pensar” em problemas passo a passo, são mais capacitados que seus equivalentes não-raciocínio em domínios específicos, como a física. Embora isso geralmente pareça ser verdade, os modelos de raciocínio também são muito mais caros de avaliar, tornando difícil verificar essas afirmações de forma independente.
De acordo com dados da Artificial Analysis, uma empresa de testes de IA, custa $2.767,05 avaliar o modelo de raciocínio o1 da OpenAI em uma suíte de sete benchmarks populares de IA: MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 e MATH-500.
A avaliação do recente Claude 3.7 Sonnet da Anthropic, um modelo de raciocínio “híbrido”, nos mesmos testes custou $1.485,35, enquanto testar o o3-mini da OpenAI teve um custo de $344,59, segundo a Artificial Analysis.
Alguns modelos de raciocínio são mais baratos para avaliação do que outros. A Artificial Analysis gastou $141,22 avaliando o o1-mini da OpenAI, por exemplo. Mas, em média, eles tendem a ser caros. No total, a Artificial Analysis gastou cerca de $5.200 avaliando cerca de uma dúzia de modelos de raciocínio, quase o dobro do que a empresa gastou analisando mais de 80 modelos não-raciocínio ($2.400).
O modelo não-raciocínio GPT-4o da OpenAI, lançado em maio de 2024, custou apenas $108,85 para avaliação, enquanto o Claude 3.6 Sonnet — o predecessor não-raciocínio do Claude 3.7 Sonnet — custou $81,41.
George Cameron, cofundador da Artificial Analysis, disse ao TechCrunch que a organização planeja aumentar seu investimento em avaliações à medida que mais laboratórios de IA desenvolvem modelos de raciocínio.
“Na Artificial Analysis, realizamos centenas de avaliações mensalmente e dedicamos um orçamento significativo a isso,” disse Cameron. “Estamos planejando aumentar esse gasto à medida que os modelos forem lançados com mais frequência.”
A Artificial Analysis não é a única empresa desse tipo lidando com o aumento dos custos de avaliação de IA.
Ross Taylor, CEO da startup de IA General Reasoning, disse que recentemente gastou $580 avaliando o Claude 3.7 Sonnet em cerca de 3.700 prompts únicos. Taylor estima que uma única execução do MMLU Pro, um conjunto de perguntas projetado para avaliar as habilidades de compreensão de linguagem de um modelo, custaria mais de $1.800.
“Estamos nos movendo para um mundo onde um laboratório reporta x% em um benchmark onde gastam y quantidade de computação, mas onde os recursos para os acadêmicos são << y,” disse Taylor em uma postagem recente no X. “[N]inguém será capaz de reproduzir os resultados.”
Por que os modelos de raciocínio são tão caros para testar? Principalmente porque geram muitos tokens. Tokens representam partes de um texto bruto, como a palavra “fantástico” dividida nas sílabas “fan,” “tas,” e “tic.” Segundo a Artificial Analysis, o o1 da OpenAI gerou mais de 44 milhões de tokens durante os testes de avaliação da empresa, cerca de oito vezes a quantidade que o GPT-4o gerou.
A grande maioria das empresas de IA cobra pelo uso do modelo por token, então é fácil ver como esses custos podem se acumular.
Os benchmarks modernos também tendem a extrair muitos tokens dos modelos porque contêm perguntas envolvendo tarefas complexas e em múltiplas etapas, de acordo com Jean-Stanislas Denain, pesquisador sênior da Epoch AI, que desenvolve seus próprios benchmarks de modelo.
“[Os benchmarks de hoje] são mais complexos [embora] o número de perguntas por benchmark tenha diminuído no geral,” disse Denain ao TechCrunch. “Eles frequentemente tentam avaliar a capacidade dos modelos de realizar tarefas do mundo real, como escrever e executar código, navegar na internet e usar computadores.”
Denain acrescentou que os modelos mais caros se tornaram mais caros por token ao longo do tempo. Por exemplo, o Claude 3 Opus da Anthropic foi o modelo mais caro quando foi lançado em maio de 2024, custando $75 por milhão de tokens de saída. O GPT-4.5 da OpenAI e o o1-pro, ambos lançados no início deste ano, custaram $150 e $600 por milhão de tokens de saída, respectivamente.
“[Apesar de] os modelos terem melhorado ao longo do tempo, ainda é verdade que o custo para alcançar um determinado nível de desempenho diminuiu bastante ao longo do tempo,” disse Denain. “Mas se você quiser avaliar os melhores e maiores modelos a qualquer momento, ainda estará pagando mais.”
Muitos laboratórios de IA, incluindo a OpenAI, oferecem acesso gratuito ou subsidiado a suas modelos para fins de teste. Mas isso pode distorcer os resultados, dizem alguns especialistas — mesmo que não haja evidências de manipulação, a mera sugestão da envolvimento de um laboratório de IA ameaça prejudicar a integridade da avaliação.
“Do ponto de vista científico, se você publica um resultado que ninguém pode replicar com o mesmo modelo, isso ainda é ciência?” escreveu Taylor em uma postagem de acompanhamento no X. “(Foi alguma vez ciência, rs)”.
Conteúdo relacionado
Como a IA do Google Está Revelando os Segredos da Comunicação dos Golfinhos
Os golfinhos são conhecidos por sua inteligência, comportamentos sociais complexos e sistemas de comunicação intrincados. Por anos, cientistas e amantes…
A equipe do DeepMind no Reino Unido está supostamente buscando se sindicalizar.
Cerca de 300 membros da equipe de IA da Google, baseada em Londres, estão buscando se sindicalizar com o Communication Workers Union, de acordo com um…
É mesmo seu chefe ligando? Jericho Security levanta $15 milhões para combater fraudes por deepfake que custaram às empresas $200 milhões apenas em 2025
Participe de nossos boletins diários e semanais para as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de inteligência artificial de…