Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA líder do setor. Saiba mais
Infelizmente para Google, o lançamento de seu mais recente modelo de linguagem flagship, Gemini 2.5 Pro, foi ofuscado pela tempestade de imagens de IA do Studio Ghibli que dominou o espaço de IA. E talvez temendo seus lançamentos anteriores malsucedidos, o Google apresentou cautelosamente como “Nosso modelo de IA mais inteligente”, em vez de adotar a abordagem de outros laboratórios de IA, que introduzem seus novos modelos como os melhores do mundo.
No entanto, experimentos práticos com exemplos do mundo real mostram que o Gemini 2.5 Pro é realmente impressionante e pode atualmente ser o melhor modelo de raciocínio. Isso abre caminho para muitas novas aplicações e possivelmente coloca o Google na vanguarda da corrida de IA generativa.

Contexto longo com boas capacidades de codificação
A característica excepcional do Gemini 2.5 Pro é sua janela de contexto muito longa e comprimento de saída. O modelo pode processar até 1 milhão de tokens (com 2 milhões a caminho), tornando possível inserir vários documentos longos e repositórios de código inteiros no prompt quando necessário. O modelo também tem um limite de saída de 64.000 tokens, em vez de cerca de 8.000 para outros modelos Gemini.
A longa janela de contexto também permite conversas estendidas, já que cada interação com um modelo de raciocínio pode gerar dezenas de milhares de tokens, especialmente se envolver código, imagens e vídeo (enfrentei esse problema com o Claude 3.7 Sonnet, que tem uma janela de contexto de 200.000 tokens).
Por exemplo, o engenheiro de software Simon Willison usou o Gemini 2.5 Pro para criar um novo recurso para seu site. Willison disse em um blog: “Ele analisou todo o meu código e descobriu todos os lugares que eu precisava modificar—18 arquivos no total, como você pode ver na PR resultante. O projeto todo levou cerca de 45 minutos do início ao fim—em média menos de três minutos por arquivo que eu tive que modificar. Eu joguei uma porção de outros desafios de codificação para ele, e o gargalo na avaliação deles se tornou minha própria capacidade mental de revisar o código resultante!”
Raciocínio multimodal impressionante
O Gemini 2.5 Pro também possui habilidades de raciocínio impressionantes sobre texto não estruturado, imagens e vídeo. Por exemplo, forneci a ele o texto do meu recente artigo sobre busca baseada em amostragem e o incentivei a criar um gráfico SVG que retratasse o algoritmo descrito no texto. O Gemini 2.5 Pro extraí key informações do artigo e criou um fluxograma para o processo de amostragem e busca, acertando até as etapas condicionais. (Para referência, a mesma tarefa exigiu múltiplas interações com o Claude 3.7 Sonnet e eventualmente atingi o limite de tokens).

A imagem renderizada apresentava alguns erros visuais (as cabeças de seta estavam deslocadas). Poderia precisar de um retoque, então testei o Gemini 2.5 Pro com um prompt multimodal, fornecendo uma captura de tela do arquivo SVG renderizado junto com o código e pedindo uma melhoria. Os resultados foram impressionantes. Ele corrigiu as cabeças de seta e melhorou a qualidade visual do diagrama.

Outros usuários tiveram experiências semelhantes com prompts multimodais. Por exemplo, em seus testes, a DataCamp replicou o exemplo do jogo de corrida apresentado no Blog do Google, depois forneceu o código e uma gravação em vídeo do jogo ao Gemini 2.5 Pro e o incentivou a fazer algumas mudanças no código do jogo. O modelo poderia raciocinar sobre as visuais, encontrar a parte do código que precisava ser alterada e fazer as modificações corretas.
Vale ressaltar, no entanto, que, como outros modelos generativos, o Gemini 2.5 Pro é propenso a cometer erros, como modificar arquivos e segmentos de código não relacionados. Quanto mais precisas suas instruções forem, menor será o risco de o modelo fazer mudanças incorretas.
Análise de dados com rastreamento de raciocínio útil
Por fim, testei o Gemini 2.5 Pro no meu clássico teste de análise de dados bagunçados para modelos de raciocínio. Eu forneci a ele um arquivo contendo uma mistura de texto simples e dados HTML brutos que eu tinha copiado e colado de diferentes páginas de histórico de ações no Yahoo! Finance. Depois, pedi que calculasse o valor de um portfólio que investiria $140 no início de cada mês, distribuído uniformemente entre as ações dos Magnificent 7, desde janeiro de 2024 até a data mais recente no arquivo.
O modelo identificou corretamente quais ações ele tinha que escolher no arquivo (Amazon, Apple, Nvidia, Microsoft, Tesla, Alphabet e Meta), extraiu as informações financeiras dos dados HTML e calculou o valor de cada investimento baseado no preço das ações no início de cada mês. Ele respondeu com uma tabela bem formatada com as ações e o valor do portfólio em cada mês e forneceu uma análise de quanto todo investimento valia no final do período.

Mais importante ainda, achei o rastreamento de raciocínio muito útil. Não está claro se o Google revela os tokens brutos da cadeia de pensamento (CoT) do Gemini 2.5 Pro, mas o rastreamento de raciocínio é muito detalhado. Você pode claramente ver como o modelo está raciocinando sobre os dados, extraindo diferentes partes de informação e calculando os resultados antes de gerar a resposta. Isso pode ajudar a solucionar o comportamento do modelo e direcioná-lo na direção certa quando comete erros.

Raciocínio de nível empresarial?
Uma preocupação com o Gemini 2.5 Pro é que ele está disponível apenas no modo de raciocínio, o que significa que o modelo sempre passa pelo processo de “pensamento” mesmo para prompts muito simples que podem ser respondidos diretamente.
O Gemini 2.5 Pro está atualmente em versão de pré-lançamento. Uma vez que o modelo completo seja lançado e as informações de preços estejam disponíveis, teremos uma melhor compreensão de quanto custará construir aplicações empresariais sobre o modelo. No entanto, à medida que os custos de inferência continuam a cair, podemos esperar que ele se torne prático em grande escala.
O Gemini 2.5 Pro pode não ter tido a estreia mais chamativa, mas suas capacidades demandam atenção. Sua enorme janela de contexto, raciocínio multimodal impressionante e cadeia de raciocínio detalhada oferecem vantagens tangíveis para cargas de trabalho empresariais complexas, desde refatoração de código até análises de dados sutis.
Insights diários sobre casos de uso empresarial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo para você. Nós reunimos informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters da VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Amazon anuncia o Nova Act, um agente de IA que pode controlar um navegador web.
[the_ad id="145565"] Na segunda-feira, a Amazon revelou o Nova Act, um agente de IA de propósito geral que pode controlar um navegador da web e realizar algumas ações simples…
Manus lança planos de assinatura pagos e um aplicativo móvel
[the_ad id="145565"] Manus AI, a plataforma de agente de IA viral da China, lançou na manhã de segunda-feira dois planos de assinatura a partir de R$ 39 por mês. Manus, que…
Gemma 3: A Resposta do Google para IA Acessível e Poderosa no Mundo Real
[the_ad id="145565"] O mercado de modelos de IA está crescendo rapidamente, com empresas como Google, Meta e OpenAI liderando o desenvolvimento de novas tecnologias de IA. O…