O Google apresenta uma nova geração de modelos de raciocínio em IA

Na terça-feira, o Google apresentou o Gemini 2.5, uma nova família de modelos de raciocínio de IA que pausa para “pensar” antes de responder a uma pergunta.

Para dar início a esta nova família de modelos, o Google está lançando o Gemini 2.5 Pro Experimental, um modelo de IA multimodal e de raciocínio que a empresa afirma ser seu modelo mais inteligente até agora. Este modelo estará disponível na terça-feira na plataforma de desenvolvedores da empresa, o Google AI Studio, além de estar acessível no aplicativo Gemini para assinantes do plano de IA da empresa, Gemini Advanced, que custa $20 por mês.

De agora em diante, o Google afirma que todos os seus novos modelos de IA terão capacidades de raciocínio integradas.

Desde que a OpenAI lançou o primeiro modelo de raciocínio de IA em setembro de 2024, o o1, a indústria de tecnologia tem corrido para igualar ou superar as capacidades desse modelo com os seus próprios. Atualmente, Anthropic, DeepSeek, Google e xAI possuem modelos de raciocínio de IA, que utilizam poder computacional e tempo adicionais para verificar fatos e raciocinar sobre problemas antes de fornecer uma resposta.

As técnicas de raciocínio ajudaram os modelos de IA a atingirem novos patamares em tarefas de matemática e programação. Muitos na indústria de tecnologia acreditam que modelos de raciocínio serão um componente chave de agentes de IA, sistemas autônomos que podem realizar tarefas em grande parte sem intervenção humana. No entanto, esses modelos também são mais caros.

O Google já experimentou modelos de raciocínio de IA anteriormente, lançando uma versão “pensante” do Gemini em dezembro. Mas o Gemini 2.5 representa a tentativa mais séria da empresa até agora em superar a série de modelos “o” da OpenAI.

O Google afirma que o Gemini 2.5 Pro supera seus modelos de IA anteriores e alguns dos principais modelos concorrentes em várias métricas. Especificamente, o Google diz que projetou o Gemini 2.5 para se destacar na criação de aplicativos web visualmente impressionantes e aplicativos de programação autônoma.

Em uma avaliação que mede edição de código, chamada Aider Polyglot, o Google afirma que o Gemini 2.5 Pro obtém uma pontuação de 68.6%, superando os principais modelos de IA da OpenAI, Anthropic e do laboratório de IA chinês DeepSeek.

No entanto, em outro teste que mede habilidades de desenvolvimento de software, o SWE-bench Verified, o Gemini 2.5 Pro pontua 63.8%, superando o o3-mini da OpenAI e o R1 da DeepSeek, mas apresentando desempenho inferior ao Claude 3.7 Sonnet da Anthropic, que pontuou 70.3%.

No Exame Final da Humanidade, um teste multimodal consistindo em milhares de perguntas coletadas sobre matemática, humanidades e ciências naturais, o Google afirma que o Gemini 2.5 Pro obtém 18.8%, superando a maioria dos modelos de destaque rivais.

Para começar, o Google afirma que o Gemini 2.5 Pro está sendo lançado com uma janela de contexto de 1 milhão de tokens, o que significa que o modelo de IA pode absorver aproximadamente 750.000 palavras de uma só vez. Isso é mais longo que toda a série de livros “O Senhor dos Anéis”. E em breve, o Gemini 2.5 Pro suportará o dobro do comprimento de entrada (2 milhões de tokens).

O Google não divulgou preços da API para o Gemini 2.5 Pro. A empresa afirma que compartilhará mais informações nas próximas semanas.