Participe das nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba mais
Salesforce está abordando um dos desafios mais persistentes da inteligência artificial em aplicações empresariais: a lacuna entre a inteligência bruta de um sistema de IA e sua capacidade de executar consistentemente em ambientes empresariais imprevisíveis — algo que a empresa chama de “inteligência irregular.”
Em um anúncio de pesquisa abrangente hoje, Salesforce AI Research revelou vários novos benchmarks, modelos e estruturas projetados para tornar os futuros agentes de IA mais inteligentes, confiáveis e versáteis para uso empresarial. As inovações visam melhorar tanto as capacidades quanto a consistência dos sistemas de IA, principalmente quando implantados como agentes autônomos em ambientes empresariais complexos.
“Enquanto os LLMs podem se destacar em testes padronizados, planejar viagens intrincadas e gerar poesia sofisticada, seu brilho muitas vezes tropeça quando confrontado com a necessidade de execução de tarefas confiáveis e consistentes em ambientes empresariais dinâmicos e imprevisíveis,” disse Silvio Savarese, Cientista Chefe da Salesforce e Chefe de Pesquisa em IA, durante uma coletiva de imprensa anterior ao anúncio.
A iniciativa representa o impulso da Salesforce em direção ao que Savarese chama de “Inteligência Geral Empresarial” (EGI) — IA projetada especificamente para a complexidade dos negócios, em vez da busca mais teórica da Inteligência Geral Artificial (AGI).
“Definimos EGI como agentes de IA feitos sob medida para empresas, otimizados não apenas para capacidade, mas também para consistência,” explicou Savarese. “Enquanto a AGI pode evocar imagens de máquinas superinteligentes que superam a inteligência humana, as empresas não estão esperando por esse futuro distante e ilusório. Elas estão aplicando esses conceitos fundamentais agora para resolver desafios do mundo real em escala.”
Como a Salesforce está medindo e resolvendo o problema de inconsistência da IA em ambientes empresariais
Um foco central da pesquisa é quantificar e abordar a inconsistência no desempenho da IA. A Salesforce apresentou o dataset SIMPLE, um benchmark público que apresenta 225 perguntas de raciocínio simples projetadas para medir quão irregular são realmente as capacidades de um sistema de IA.
“A IA de hoje é irregular, então precisamos trabalhar nisso. Mas como podemos trabalhar em algo sem medi-lo primeiro? É exatamente isso que este benchmark SIMPLE representa,” explicou Shelby Heinecke, Gerente Sênior de Pesquisa da Salesforce, durante a coletiva de imprensa.
Para aplicações empresariais, essa inconsistência não é apenas uma preocupação acadêmica. Um único erro de um agente de IA pode interromper operações, erodir a confiança do cliente ou causar danos financeiros substanciais.
“Para as empresas, a IA não é um passatempo casual; é uma ferramenta crítica para a missão que requer previsibilidade inabalável,” observou Savarese em seus comentários.
Dentro do CRMArena: O terreno de testes virtual da Salesforce para agentes de IA empresariais
Talvez a inovação mais significativa seja o CRMArena, uma nova estrutura de benchmark projetada para simular cenários de gerenciamento de relacionamento com o cliente realistas. Isso permite testes abrangentes de agentes de IA em contextos profissionais, abordando a lacuna entre benchmarks acadêmicos e requisitos empresariais do mundo real.
“Reconhecendo que os modelos de IA atuais muitas vezes não refletem as exigências intricadas dos ambientes empresariais, introduzimos o CRMArena: uma estrutura de benchmark meticulosamente projetada para simular cenários de CRM profissionalmente fundamentados,” disse Savarese.
A estrutura avalia o desempenho dos agentes em três personas principais: agentes de serviço, analistas e gerentes. Testes iniciais revelaram que, mesmo com solicitações guiadas, os principais agentes têm sucesso em menos de 65% das vezes em chamar funções para os casos de uso dessas personas.
“O CRMArena é essencialmente uma ferramenta que foi introduzida internamente para melhorar os agentes,” explicou Savarese. “Isso nos permite estressar esses agentes, entender quando eles estão falhando e depois usar as lições aprendidas com esses casos de falha para melhorar nossos agentes.”
Novos modelos de incorporação que entendem o contexto empresarial melhor do que nunca
Entre as inovações técnicas anunciadas, a Salesforce destacou o SFR-Embedding, um novo modelo para uma compreensão contextual mais profunda que lidera o Massive Text Embedding Benchmark (MTEB) em 56 conjuntos de dados.
“O SFR embedding não é apenas pesquisa. Ele estará disponível no Data Cloud muito, muito em breve,” observou Heinecke.
Uma versão especializada, SFR-Embedding-Code, foi também introduzida para desenvolvedores, permitindo uma busca de código de alta qualidade e simplificando o desenvolvimento. Segundo a Salesforce, a versão de 7 bilhões de parâmetros lidera o benchmark de Recuperação de Informação de Código (CoIR), enquanto modelos menores (400M, 2B) oferecem alternativas eficientes e econômicas.
Por que modelos de IA menores e focados em ações podem superar modelos de linguagem maiores para tarefas empresariais
A Salesforce também anunciou xLAM V2 (Modelo Grande de Ação), uma família de modelos projetados especificamente para prever ações em vez de apenas gerar texto. Esses modelos começam com apenas 1 bilhão de parâmetros — uma fração do tamanho de muitos modelos de linguagem líderes.
“O que é especial sobre nossos modelos xLAM é que, se olharmos para os tamanhos dos nossos modelos, temos um modelo de 1B, que vai até um modelo de 70B. Esse modelo de 1B, por exemplo, é uma fração do tamanho de muitos dos modelos de linguagem de hoje,” explicou Heinecke. “Esse pequeno modelo possui muito poder em tomar a próxima ação.”
Diferente dos modelos de linguagem padrão, esses modelos de ação são especificamente treinados para prever e executar os próximos passos em uma sequência de tarefas, tornando-os particularmente valiosos para agentes autônomos que precisam interagir com sistemas empresariais.
“Os grandes modelos de ação são LLMs em essência, e a maneira como os construímos é pegando um LLM e ajustando-o finamente em algo que chamamos de trajetórias de ação,” acrescentou Heinecke.
Segurança em IA empresarial: Como a camada de confiança da Salesforce estabelece barreiras para uso empresarial
Para abordar as preocupações empresariais sobre a segurança e confiabilidade da IA, a Salesforce introduziu o SFR-Guard, uma família de modelos treinados em dados públicos e dados internos especializados em CRM. Esses modelos reforçam a Camada de Confiança da empresa, que fornece barreiras para o comportamento dos agentes de IA.
“As barreiras do Agentforce estabelecem limites claros para o comportamento dos agentes com base nas necessidades empresariais, políticas e padrões, garantindo que os agentes atuem dentro de limites predefinidos,” afirmou a empresa em seu anúncio.
A empresa também lançou o ContextualJudgeBench, um novo benchmark para avaliar modelos de juiz baseados em LLM em contexto — testando mais de 2.000 pares de respostas desafiadoras quanto à precisão, concisão, fidelidade e recusa apropriada de resposta.
Olhar além do texto, a Salesforce revelou o TACO, uma família de modelos de ação multimodal projetada para resolver problemas complexos e de múltiplas etapas por meio de cadeias de pensamento e ação (CoTA). Essa abordagem permite que a IA interprete e responda a consultas complexas envolvendo múltiplos tipos de mídia, com a Salesforce reivindicando até 20% de melhoria no desafiador benchmark MMVet.
Co-inovação em ação: Como o feedback dos clientes molda o roteiro da IA empresarial da Salesforce
Itai Asseo, Diretor Sênior de Incubação e Estratégia de Marca na Pesquisa em IA, enfatizou a importância da co-inovação com clientes no desenvolvimento de soluções de IA prontas para empresas.
“Quando falamos com os clientes, um dos principais pontos problemáticos que temos é que, ao lidar com dados empresariais, há uma baixa tolerância para fornecer respostas que não sejam precisas e relevantes,” explicou Asseo. “Fizemos muitos progressos, seja com motores de raciocínio, com técnicas de RAG e outros métodos em torno dos LLMs.”
Asseo citou exemplos de incubação de clientes que resultaram em melhorias significativas no desempenho da IA: “Quando aplicamos o motor de raciocínio Atlas, incluindo algumas técnicas avançadas para geração aumentada de recuperação, juntamente com nossa metodologia e arquitetura de raciocínio e ciclo de ação, estávamos vendo uma precisão que era o dobro do que os clientes conseguiam ao trabalhar com outros grandes concorrentes nossos.”
O caminho para a Inteligência Geral Empresarial: O que vem a seguir para a IA da Salesforce
A pressão por pesquisa da Salesforce surge em um momento crítico na adoção da IA empresarial, à medida que as empresas buscam sistemas de IA que combinem capacidades avançadas com desempenho confiável.
Enquanto toda a indústria de tecnologia persegue modelos cada vez maiores com capacidades brutas impressionantes, o foco da Salesforce na lacuna de consistência destaca uma abordagem mais sutil no desenvolvimento da IA — uma que prioriza os requisitos empresariais do mundo real em vez de benchmarks acadêmicos.
As tecnologias anunciadas na quinta-feira começarão a ser implementadas nos próximos meses, com o SFR-Embedding chegando ao Data Cloud primeiro, enquanto outras inovações alimentarão versões futuras do Agentforce.
Como observou Savarese na coletiva de imprensa, “Não se trata de substituir humanos. Trata-se de estar no comando.” Na corrida pela dominância da IA empresarial, a Salesforce aposta que a consistência e a confiabilidade — não apenas a inteligência bruta — definirão, em última análise, os vencedores da revolução da IA nos negócios.
Percepções diárias sobre casos de uso empresarial com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Oferecemos informações privilegiadas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar percepções para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
A “era da experiência” trará agentes de IA autoaprendizes pela web—saiba como se preparar.
[the_ad id="145565"] Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA líder do setor. Saiba Mais…
O Modo de IA do Google ganha acesso expandido e novas funcionalidades.
[the_ad id="145565"] O Google está expandindo o acesso ao Modo de IA, sua funcionalidade experimental que permite aos usuários fazer perguntas complexas e de múltiplas partes e…
O novo Orquestrador da UiPath orienta agentes de IA a seguir as regras da sua empresa
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder no setor. Saiba mais…