Participe de nossos boletins diários e semanais para atualizações mais recentes e conteúdo exclusivo sobre cobertura de IA de líderes de mercado. Saiba Mais
Wells Fargo conseguiu discretamente o que a maioria das empresas ainda sonha: construir um sistema de IA generativa em larga escala e pronto para produção que realmente funciona. Apenas em 2024, o assistente alimentado por IA do banco, Fargo, gerenciou 245,4 milhões de interações – mais do que o dobro de suas projeções originais – e fez isso sem nunca expor dados sensíveis dos clientes a um modelo de linguagem.
Fargo ajuda os clientes com necessidades bancárias cotidianas via voz ou texto, lidando com solicitações como pagamento de contas, transferência de fundos, fornecimento de detalhes de transações e resposta a perguntas sobre atividades de conta. O assistente se mostrou uma ferramenta atraente para os usuários, com média de múltiplas interações por sessão.
O sistema funciona através de um pipeline focado na privacidade. Um cliente interage pelo aplicativo, onde a fala é transcrita localmente com um modelo de fala para texto. Esse texto é então tratado e tokenizado pelos sistemas internos do Wells Fargo, incluindo um modelo de linguagem pequeno (SLM) para detecção de informações pessoalmente identificáveis (PII). Somente após isso é feita uma chamada ao modelo Flash 2.0 do Google para extrair a intenção do usuário e as entidades relevantes. Nenhum dado sensível nunca chega ao modelo.
“A camada de orquestração fala com o modelo,” disse o CIO do Wells Fargo, Chintan Mehta, em uma entrevista ao VentureBeat. “Nós somos os filtros na frente e atrás.”
A única coisa que o modelo faz, explicou, é determinar a intenção e a entidade com base na frase que um usuário submete, como identificar que uma solicitação envolve uma conta poupança. “Todos os cálculos e detokenização, tudo está do nosso lado,” disse Mehta. “Nossas APIs… nenhuma delas passa pelo LLM. Todas elas estão apenas ortogonais a ele.”
As estatísticas internas do Wells Fargo mostram um aumento dramático: de 21,3 milhões de interações em 2023 para mais de 245 milhões em 2024, com mais de 336 milhões de interações acumuladas desde o lançamento. A adoção do idioma espanhol também disparou, representando mais de 80% do uso desde seu lançamento em setembro de 2023.
Essa arquitetura reflete uma mudança estratégica mais ampla. Mehta disse que a abordagem do banco está fundamentada na construção de “sistemas compostos,” onde as camadas de orquestração determinam qual modelo usar com base na tarefa. O Gemini Flash 2.0 alimenta o Fargo, mas modelos menores como Llama são usados internamente em outros lugares, e modelos da OpenAI podem ser utilizados quando necessário.
“Somos polimodelo e polinuvem,” ele disse, observando que embora o banco dependa fortemente do Google Cloud hoje, também utiliza o Azure da Microsoft.
Mehta afirma que a agnosticidade do modelo é essencial agora que a diferença de desempenho entre os principais modelos é pequena. Ele acrescentou que alguns modelos ainda se destacam em áreas específicas—Claude Sonnet 3.7 e a versão o3 mini da OpenAI são altas para codificação, e a versão o3 da OpenAI é boa para pesquisa profunda, e assim por diante—mas na opinião dele, a pergunta mais importante é como eles são orquestrados em pipelines.
O tamanho da janela de contexto continua sendo uma área onde ele vê separação significativa. Mehta elogiou a capacidade de 1 milhão de tokens do Gemini 2.5 Pro como uma clara vantagem para tarefas como geração aumentada por recuperação (RAG), onde o pré-processamento de dados não estruturados pode adicionar atrasos. “O Gemini realmente se destacou nesse aspecto,” ele disse. Para muitos casos de uso, ele mencionou que o overhead do pré-processamento de dados antes de implantar um modelo frequentemente supera o benefício.
O design do Fargo demonstra como modelos de contexto amplo podem permitir automação rápida, em conformidade e de alto volume – mesmo sem intervenção humana. E isso contrasta nitidamente com os concorrentes. No Citi, por exemplo, a chefe de análises Promiti Dutta disse no ano passado que os riscos de modelos de linguagem de grande escala (LLMs) voltados para o exterior ainda eram altos demais. Em uma palestra realizada pelo VentureBeat, ela descreveu um sistema onde agentes assistentes não falam diretamente com os clientes, devido a preocupações sobre alucinações e sensibilidade dos dados.
O Wells Fargo resolve essas preocupações por meio de seu design de orquestração. Em vez de depender de um humano no processo, ele utiliza salvaguardas em camadas e lógica interna para manter os LLMs fora de qualquer caminho sensível a dados.
Movimentos agentais e design de múltiplos agentes
Wells Fargo também está avançando em direção a sistemas mais autônomos. Mehta descreveu um projeto recente para reanalisar 15 anos de documentos de empréstimos arquivados. O banco usou uma rede de agentes interagentes, alguns dos quais são construídos em estruturas de código aberto como LangGraph. Cada agente teve um papel específico no processo, que incluiu a recuperação de documentos do arquivo, extração de seu conteúdo, correspondência dos dados com sistemas de registro e, em seguida, prosseguindo ao longo do pipeline para realizar cálculos – todas tarefas que tradicionalmente requerem analistas humanos. Um humano revisa a saída final, mas a maior parte do trabalho foi feita de forma autônoma.
O banco também está avaliando modelos de raciocínio para uso interno, onde Mehta afirmou que ainda existe diferenciação. Enquanto a maioria dos modelos agora lida bem com tarefas cotidianas, o raciocínio ainda se destaca como um caso limite onde alguns modelos claramente se saem melhor do que outros, e eles fazem isso de maneiras diferentes.
Por que latência (e preços) importam
Na Wayfair, a CTO Fiona Tan disse que o Gemini 2.5 Pro mostrou grande promessa, especialmente na área de velocidade. “Em alguns casos, o Gemini 2.5 retornou mais rápido do que Claude ou OpenAI,” ela disse, referindo-se a experimentos recentes realizados por sua equipe.
Tan mencionou que uma menor latência abre a porta para aplicações de cliente em tempo real. Atualmente, a Wayfair usa LLMs principalmente para aplicativos voltados internamente—incluindo em merchandising e planejamento de capital—mas uma inferência mais rápida pode permitir que eles estendam os LLMs para produtos voltados aos clientes, como sua ferramenta de perguntas e respostas nas páginas de detalhes dos produtos.
Tan também observou melhorias no desempenho de codificação do Gemini. “Parece agora bastante comparável ao Claude 3.7,” ela disse. A equipe começou a avaliar o modelo em produtos como Cursor e Code Assist, onde os desenvolvedores têm a flexibilidade de escolher.
O Google lançou, desde então, preços agressivos para o Gemini 2.5 Pro: $1,24 por milhão de tokens de entrada e $10 por milhão de tokens de saída. Tan afirmou que esses preços, além da flexibilidade de SKU para tarefas de raciocínio, tornam o Gemini uma opção forte para o futuro.
O sinal mais amplo para o Google Cloud Next
As histórias do Wells Fargo e da Wayfair chegam em um momento oportuno para o Google, que está realizando sua conferência anual Google Cloud Next esta semana em Las Vegas. Enquanto a OpenAI e a Anthropic dominaram o discurso de IA nos últimos meses, as implantações empresariais podem silenciosamente voltar a favorecer o Google.
Na conferência, espera-se que o Google destaque uma onda de iniciativas de IA agenciais, incluindo novas capacidades e ferramentas para tornar agentes autônomos mais úteis em fluxos de trabalho empresariais. Já no evento Cloud Next do ano passado, o CEO Thomas Kurian predisse que os agentes seriam projetados para ajudar os usuários a “alcançar objetivos específicos” e “conectar-se com outros agentes” para completar tarefas — temas que ecoam muitos dos princípios de orquestração e autonomia que Mehta descreveu.
Mehta enfatizou que o verdadeiro gargalo para a adoção de IA não será o desempenho do modelo ou a disponibilidade de GPU. “Acho que isso é poderoso. Não tenho dúvida sobre isso,” disse ele, sobre a promessa da IA generativa de devolver valor para aplicativos empresariais. Mas ele alertou que o ciclo de hype pode estar se adiantando ao valor prático. “Precisamos ser muito cuidadosos para não nos deixar levar por objetos brilhantes.”
Qual é sua maior preocupação? Energia. “A limitação não será os chips,” disse Mehta. “Será a geração e distribuição de energia. Esse é o verdadeiro gargalo.”
Insights diários sobre casos de uso empresarial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Fornecemos informações internas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters da VB aqui.
Ocorreu um erro.

Conteúdo relacionado
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…
Tudo o que você precisa saber sobre o chatbot de IA
[the_ad id="145565"] O ChatGPT, o chatbot de IA geradora de texto da OpenAI, conquistou o mundo desde seu lançamento em novembro de 2022. O que começou como uma ferramenta para…