Bolt42

Participe de nossos boletins diários e semanais para atualizações mais recentes e conteúdo exclusivo sobre cobertura de IA de líderes de mercado. Saiba Mais


Wells Fargo conseguiu discretamente o que a maioria das empresas ainda sonha: construir um sistema de IA generativa em larga escala e pronto para produção que realmente funciona. Apenas em 2024, o assistente alimentado por IA do banco, Fargo, gerenciou 245,4 milhões de interações – mais do que o dobro de suas projeções originais – e fez isso sem nunca expor dados sensíveis dos clientes a um modelo de linguagem.

Fargo ajuda os clientes com necessidades bancárias cotidianas via voz ou texto, lidando com solicitações como pagamento de contas, transferência de fundos, fornecimento de detalhes de transações e resposta a perguntas sobre atividades de conta. O assistente se mostrou uma ferramenta atraente para os usuários, com média de múltiplas interações por sessão.

O sistema funciona através de um pipeline focado na privacidade. Um cliente interage pelo aplicativo, onde a fala é transcrita localmente com um modelo de fala para texto. Esse texto é então tratado e tokenizado pelos sistemas internos do Wells Fargo, incluindo um modelo de linguagem pequeno (SLM) para detecção de informações pessoalmente identificáveis (PII). Somente após isso é feita uma chamada ao modelo Flash 2.0 do Google para extrair a intenção do usuário e as entidades relevantes. Nenhum dado sensível nunca chega ao modelo.

“A camada de orquestração fala com o modelo,” disse o CIO do Wells Fargo, Chintan Mehta, em uma entrevista ao VentureBeat. “Nós somos os filtros na frente e atrás.”

A única coisa que o modelo faz, explicou, é determinar a intenção e a entidade com base na frase que um usuário submete, como identificar que uma solicitação envolve uma conta poupança. “Todos os cálculos e detokenização, tudo está do nosso lado,” disse Mehta. “Nossas APIs… nenhuma delas passa pelo LLM. Todas elas estão apenas ortogonais a ele.”

As estatísticas internas do Wells Fargo mostram um aumento dramático: de 21,3 milhões de interações em 2023 para mais de 245 milhões em 2024, com mais de 336 milhões de interações acumuladas desde o lançamento. A adoção do idioma espanhol também disparou, representando mais de 80% do uso desde seu lançamento em setembro de 2023.

Essa arquitetura reflete uma mudança estratégica mais ampla. Mehta disse que a abordagem do banco está fundamentada na construção de “sistemas compostos,” onde as camadas de orquestração determinam qual modelo usar com base na tarefa. O Gemini Flash 2.0 alimenta o Fargo, mas modelos menores como Llama são usados internamente em outros lugares, e modelos da OpenAI podem ser utilizados quando necessário.

“Somos polimodelo e polinuvem,” ele disse, observando que embora o banco dependa fortemente do Google Cloud hoje, também utiliza o Azure da Microsoft.

Mehta afirma que a agnosticidade do modelo é essencial agora que a diferença de desempenho entre os principais modelos é pequena. Ele acrescentou que alguns modelos ainda se destacam em áreas específicas—Claude Sonnet 3.7 e a versão o3 mini da OpenAI são altas para codificação, e a versão o3 da OpenAI é boa para pesquisa profunda, e assim por diante—mas na opinião dele, a pergunta mais importante é como eles são orquestrados em pipelines.

O tamanho da janela de contexto continua sendo uma área onde ele vê separação significativa. Mehta elogiou a capacidade de 1 milhão de tokens do Gemini 2.5 Pro como uma clara vantagem para tarefas como geração aumentada por recuperação (RAG), onde o pré-processamento de dados não estruturados pode adicionar atrasos. “O Gemini realmente se destacou nesse aspecto,” ele disse. Para muitos casos de uso, ele mencionou que o overhead do pré-processamento de dados antes de implantar um modelo frequentemente supera o benefício.

O design do Fargo demonstra como modelos de contexto amplo podem permitir automação rápida, em conformidade e de alto volume – mesmo sem intervenção humana. E isso contrasta nitidamente com os concorrentes. No Citi, por exemplo, a chefe de análises Promiti Dutta disse no ano passado que os riscos de modelos de linguagem de grande escala (LLMs) voltados para o exterior ainda eram altos demais. Em uma palestra realizada pelo VentureBeat, ela descreveu um sistema onde agentes assistentes não falam diretamente com os clientes, devido a preocupações sobre alucinações e sensibilidade dos dados.

O Wells Fargo resolve essas preocupações por meio de seu design de orquestração. Em vez de depender de um humano no processo, ele utiliza salvaguardas em camadas e lógica interna para manter os LLMs fora de qualquer caminho sensível a dados.

Movimentos agentais e design de múltiplos agentes

Wells Fargo também está avançando em direção a sistemas mais autônomos. Mehta descreveu um projeto recente para reanalisar 15 anos de documentos de empréstimos arquivados. O banco usou uma rede de agentes interagentes, alguns dos quais são construídos em estruturas de código aberto como LangGraph. Cada agente teve um papel específico no processo, que incluiu a recuperação de documentos do arquivo, extração de seu conteúdo, correspondência dos dados com sistemas de registro e, em seguida, prosseguindo ao longo do pipeline para realizar cálculos – todas tarefas que tradicionalmente requerem analistas humanos. Um humano revisa a saída final, mas a maior parte do trabalho foi feita de forma autônoma.

O banco também está avaliando modelos de raciocínio para uso interno, onde Mehta afirmou que ainda existe diferenciação. Enquanto a maioria dos modelos agora lida bem com tarefas cotidianas, o raciocínio ainda se destaca como um caso limite onde alguns modelos claramente se saem melhor do que outros, e eles fazem isso de maneiras diferentes.

Por que latência (e preços) importam

Na Wayfair, a CTO Fiona Tan disse que o Gemini 2.5 Pro mostrou grande promessa, especialmente na área de velocidade. “Em alguns casos, o Gemini 2.5 retornou mais rápido do que Claude ou OpenAI,” ela disse, referindo-se a experimentos recentes realizados por sua equipe.

Tan mencionou que uma menor latência abre a porta para aplicações de cliente em tempo real. Atualmente, a Wayfair usa LLMs principalmente para aplicativos voltados internamente—incluindo em merchandising e planejamento de capital—mas uma inferência mais rápida pode permitir que eles estendam os LLMs para produtos voltados aos clientes, como sua ferramenta de perguntas e respostas nas páginas de detalhes dos produtos.

Tan também observou melhorias no desempenho de codificação do Gemini. “Parece agora bastante comparável ao Claude 3.7,” ela disse. A equipe começou a avaliar o modelo em produtos como Cursor e Code Assist, onde os desenvolvedores têm a flexibilidade de escolher.

O Google lançou, desde então, preços agressivos para o Gemini 2.5 Pro: $1,24 por milhão de tokens de entrada e $10 por milhão de tokens de saída. Tan afirmou que esses preços, além da flexibilidade de SKU para tarefas de raciocínio, tornam o Gemini uma opção forte para o futuro.

O sinal mais amplo para o Google Cloud Next

As histórias do Wells Fargo e da Wayfair chegam em um momento oportuno para o Google, que está realizando sua conferência anual Google Cloud Next esta semana em Las Vegas. Enquanto a OpenAI e a Anthropic dominaram o discurso de IA nos últimos meses, as implantações empresariais podem silenciosamente voltar a favorecer o Google.

Na conferência, espera-se que o Google destaque uma onda de iniciativas de IA agenciais, incluindo novas capacidades e ferramentas para tornar agentes autônomos mais úteis em fluxos de trabalho empresariais. Já no evento Cloud Next do ano passado, o CEO Thomas Kurian predisse que os agentes seriam projetados para ajudar os usuários a “alcançar objetivos específicos” e “conectar-se com outros agentes” para completar tarefas — temas que ecoam muitos dos princípios de orquestração e autonomia que Mehta descreveu.

Mehta enfatizou que o verdadeiro gargalo para a adoção de IA não será o desempenho do modelo ou a disponibilidade de GPU. “Acho que isso é poderoso. Não tenho dúvida sobre isso,” disse ele, sobre a promessa da IA generativa de devolver valor para aplicativos empresariais. Mas ele alertou que o ciclo de hype pode estar se adiantando ao valor prático. “Precisamos ser muito cuidadosos para não nos deixar levar por objetos brilhantes.”

Qual é sua maior preocupação? Energia. “A limitação não será os chips,” disse Mehta. “Será a geração e distribuição de energia. Esse é o verdadeiro gargalo.”





    20 − 2 =




    Bolt42