Bolt42

Junte-se aos nossos boletins diários e semanais para obter as últimas atualizações e conteúdo exclusivo sobre a cobertura líder de IA no setor. Saiba Mais


O Google lançou Gemini 2.5 Flash, uma grande atualização de sua linha de IA que oferece às empresas e desenvolvedores um controle sem precedentes sobre quanto “pensamento” sua IA realiza. O novo modelo, lançado hoje em prévia através do Google AI Studio e Vertex AI, representa um esforço estratégico para oferecer melhores capacidades de raciocínio enquanto mantém preços competitivos no cada vez mais saturado mercado de IA.

O modelo introduz o que o Google chama de um “orçamento de raciocínio” — um mecanismo que permite aos desenvolvedores especificar quanto poder computacional deve ser alocado para raciocinar sobre problemas complexos antes de gerar uma resposta. Essa abordagem visa resolver uma tensão fundamental no mercado de IA atual: raciocínios mais sofisticados geralmente têm um custo mais alto em latência e preço.

“Sabemos que custo e latência são importantes para uma série de casos de uso de desenvolvedores, e queremos oferecer flexibilidade para que os desenvolvedores adaptem a quantidade de raciocínio que o modelo realiza, dependendo de suas necessidades,” afirmou Tulsee Doshi, Diretora de Produtos dos Modelos Gemini na Google DeepMind, em uma entrevista exclusiva ao VentureBeat.

Essas flexibilidade revela a abordagem pragmática do Google para a implementação de IA, à medida que a tecnologia se torna cada vez mais incorporada nas aplicações empresariais onde a previsibilidade de custos é essencial. Ao permitir que a capacidade de raciocínio seja ativada ou desativada, o Google criou o que chama de “o primeiro modelo de raciocínio totalmente híbrido.”

Pague somente pela capacidade de raciocínio que você precisa: Dentro do novo modelo de preços de IA do Google

A nova estrutura de preços destaca o custo do raciocínio nos sistemas de IA de hoje. Ao usar Gemini 2.5 Flash, os desenvolvedores pagam $0,15 por milhão de tokens para entrada. Os custos de saída variam dramaticamente com base nas configurações de raciocínio: $0,60 por milhão de tokens com o raciocínio desativado, saltando para $3,50 por milhão de tokens com o raciocínio ativado.

Essa diferença de quase seis vezes no preço para saídas raciocinadas reflete a intensidade computacional do processo de “pensar”, onde o modelo avalia múltiplos caminhos e considerações em potencial antes de gerar uma resposta.

“Os clientes pagam por quaisquer tokens de raciocínio e saída que o modelo gera,” disse Doshi ao VentureBeat. “Na interface do AI Studio, você pode ver esses pensamentos antes de uma resposta. Na API, atualmente não fornecemos acesso aos pensamentos, mas um desenvolvedor pode ver quantos tokens foram gerados.”

O orçamento de raciocínio pode ser ajustado de 0 a 24.576 tokens, operando como um limite máximo em vez de uma alocação fixa. Segundo o Google, o modelo determina intelligentemente quanto desse orçamento usar com base na complexidade da tarefa, preservando recursos quando o raciocínio elaborado não é necessário.

Como o Gemini 2.5 Flash se compara: Resultados de benchmark contra os principais modelos de IA

O Google afirma que Gemini 2.5 Flash demonstra desempenho competitivo em benchmarks-chave enquanto mantém um tamanho de modelo menor do que alternativas. No Último Exame da Humanidade, um teste rigoroso projetado para avaliar raciocínio e conhecimento, o 2.5 Flash marcou 12,1%, superando o Claude 3.7 Sonnet da Anthropic (8,9%) e o DeepSeek R1 (8,6%), embora tenha ficado aquém do o4-mini da OpenAI (14,3%).

O modelo também obteve bons resultados em benchmarks técnicos como GPQA diamond (78,3%) e exames de matemática AIME (78,0% nos testes de 2025 e 88,0% nos de 2024).

“As empresas devem escolher o 2.5 Flash porque proporciona o melhor valor pelo seu custo e velocidade,” disse Doshi. “Ele é particularmente forte em relação aos concorrentes em matemática, raciocínio multimodal, longas contextualizações e várias outras métricas-chave.”

Analistas do setor observam que esses benchmarks indicam que o Google está diminuindo a diferença de desempenho em relação aos concorrentes enquanto mantém uma vantagem de preços — uma estratégia que pode ressoar com os clientes empresariais que controlam seus orçamentos em IA.

Inteligente vs. rápido: Quando sua IA precisa pensar profundamente?

A introdução do raciocínio ajustável representa uma evolução significativa em como as empresas podem implantar IA. Com modelos tradicionais, os usuários têm pouca visibilidade ou controle sobre o processo interno de raciocínio do modelo.

A abordagem do Google permite que os desenvolvedores otimizem para diferentes cenários. Para consultas simples, como tradução de linguagem ou recuperação básica de informações, o raciocínio pode ser desativado para máxima eficiência de custos. Para tarefas complexas que exigem raciocínio em várias etapas, como resolução de problemas matemáticos ou análises sutis, a função de raciocínio pode ser ativada e ajustada.

Uma inovação importante é a capacidade do modelo de determinar quão adequado é o raciocínio com base na consulta. O Google ilustra isso com exemplos: uma pergunta simples como “Quantas províncias o Canadá tem?” requer raciocínio mínimo, enquanto uma pergunta de engenharia complexa sobre cálculos de tensão em vigas engajaria automaticamente processos de pensamento mais profundos.

“Integrar capacidades de raciocínio em nossos modelos principais Gemini, combinado com melhorias em todas as áreas, levou a respostas de maior qualidade,” disse Doshi. “Essas melhorias são verdadeiras em benchmarks acadêmicos — incluindo o SimpleQA, que mede a factualidade.”

Semana de IA do Google: Acesso gratuito para estudantes e geração de vídeo se juntam ao lançamento do 2.5 Flash

A liberação do Gemini 2.5 Flash ocorre em uma semana de movimentos agressivos do Google na área de IA. Na segunda-feira, a empresa lançou as capacidades de geração de vídeo Veo 2 para assinantes do Gemini Advanced, permitindo que os usuários criem clipes de vídeo de oito segundos a partir de prompts de texto. Hoje, juntamente com o anúncio do 2.5 Flash, o Google revelou que todos os estudantes universitários nos EUA receberão acesso gratuito ao Gemini Advanced até a primavera de 2026 — um movimento interpretado por analistas como um esforço para criar lealdade entre os futuros trabalhadores do conhecimento.

Esses anúncios refletem a estratégia multifacetada do Google para competir em um mercado dominado pelo ChatGPT da OpenAI, que segundo relatos tem mais de 800 milhões de usuários semanais em comparação com os estimados 250-275 milhões de usuários mensais do Gemini, de acordo com análises de terceiros.

O modelo 2.5 Flash, com seu foco explícito em eficiência de custos e personalização de desempenho, parece ser projetado para atrair especialmente clientes empresariais que precisam gerenciar cuidadosamente os custos de implantação de IA enquanto ainda acessam capacidades avançadas.

“Estamos muito empolgados para começar a receber feedback dos desenvolvedores sobre o que eles estão construindo com o Gemini Flash 2.5 e como estão utilizando os orçamentos de raciocínio,” disse Doshi.

Além da prévia: O que as empresas podem esperar conforme o Gemini 2.5 Flash amadurece

Embora este lançamento esteja em prévia, o modelo já está disponível para os desenvolvedores começarem a construir, embora o Google não tenha especificado um cronograma para a disponibilidade geral. A empresa indica que continuará refinando as capacidades de raciocínio dinâmico com base no feedback dos desenvolvedores durante esta fase de prévia.

Para os adotantes de IA empresarial, este lançamento representa uma oportunidade para experimentar abordagens mais nuançadas para a implantação de IA, potencialmente alocando mais recursos computacionais para tarefas de alto risco enquanto conserva custos em aplicações rotineiras.

O modelo também está disponível para consumidores através do aplicativo Gemini, onde aparece como “2.5 Flash (Experimental)” no menu suspenso do modelo, substituindo a opção anterior de 2.0 Thinking (Experimental). Esse lançamento voltado para o consumidor sugere que o Google está utilizando o ecossistema do aplicativo para coletar feedback mais amplo sobre sua arquitetura de raciocínio.

À medida que a IA se torna cada vez mais incorporada nos fluxos de trabalho empresariais, a abordagem do Google com raciocínio personalizável reflete um mercado em amadurecimento onde a otimização de custos e o ajuste de desempenho se tornam tão importantes quanto as capacidades brutas — sinalizando uma nova fase na comercialização de tecnologias de IA generativa.





    quatro × cinco =




    Bolt42