Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais
Uma parceria entre a empresa de suporte telefônico por IA Phonely, a plataforma de otimização de inferência Maitai e o fabricante de chips Groq alcançou um avanço que aborda um dos problemas mais persistentes da inteligência artificial conversacional: os atrasos estranhos que imediatamente sinalizam aos chamadores que estão falando com uma máquina.
A colaboração permitiu que a Phonely reduzisse os tempos de resposta em mais de 70% enquanto simultaneamente aumentou a precisão de 81,5% para 99,2% em quatro iterações de modelo, superando a marca de 94,7% do GPT-4o em 4,5 pontos percentuais. As melhorias decorrem da nova capacidade da Groq de alternar instantaneamente entre vários modelos de IA especializados sem latência adicional, orquestradas através da plataforma de otimização da Maitai.
Essa conquista resolve o que especialistas da indústria chamam de “vale estranho” da IA de voz — as sutilezas que fazem as conversas automatizadas parecerem distintamente não-humanas. Para centros de atendimento e operações de serviço ao cliente, as implicações podem ser transformadoras: um dos clientes da Phonely está substituindo 350 agentes humanos somente neste mês.
Por que as chamadas por IA ainda soam robóticas: o problema de quatro segundos
Modelos de linguagem tradicionais como o GPT-4o da OpenAI têm lutado há muito tempo com o que parece ser um desafio simples: responder rapidamente o suficiente para manter o fluxo natural da conversa. Enquanto alguns segundos de atraso mal são percebidos em interações baseadas em texto, a mesma pausa parece interminável durante conversas telefônicas ao vivo.
“Uma das coisas que a maioria das pessoas não percebe é que os principais fornecedores de LLM, como OpenAI, Claude e outros, têm um grau muito alto de variância de latência,” disse Will Bodewes, fundador e CEO da Phonely, em uma entrevista exclusiva ao VentureBeat. “Quatro segundos se sentem como uma eternidade se você está falando com uma IA de voz ao telefone – esse atraso é o que faz a maioria das IAs de voz hoje parecerem não-humanas.”
O problema ocorre aproximadamente uma vez a cada dez solicitações, o que significa que conversas padrão inevitavelmente incluem pelo menos uma ou duas pausas estranhas que revelam imediatamente a natureza artificial da interação. Para empresas que consideram agentes telefônicos de IA, esses atrasos criaram uma barreira significativa à adoção.
“Esse tipo de latência é inaceitável para suporte telefônico em tempo real,” explicou Bodewes. “Além da latência, a precisão conversacional e as respostas humanizadas são aspectos que os fornecedores de LLM legados simplesmente não conseguiram resolver no domínio da voz.”
Como três startups resolveram o maior desafio conversacional da IA
A solução surgiu do desenvolvimento da Groq do que a empresa chama de “hotswapping LoRA sem latência” — a capacidade de alternar instantaneamente entre várias variantes de modelos de IA especializados sem penalidade de desempenho. LoRA, ou Low-Rank Adaptation, permite que os desenvolvedores criem modificações leves e específicas para tarefas em modelos existentes, em vez de treinar novos do zero.
“A combinação da arquitetura de controle de software de granularidade fina da Groq, memória em chip de alta velocidade, arquitetura de streaming e execução determinística significa que é possível acessar múltiplas LoRAs hotswap sem penalidade de latência,” explicou Chelsey Kantor, diretora de marketing da Groq, em uma entrevista ao VentureBeat. “As LoRAs são armazenadas e geridas em SRAM ao lado dos pesos do modelo original.”
Esse avanço de infraestrutura permitiu que a Maitai criasse o que o fundador Christian DalSanto descreve como um sistema de “orquestração em camada proxy” que otimiza continuamente o desempenho do modelo. “Maitai atua como uma camada proxy fina entre os clientes e seus fornecedores de modelo,” disse DalSanto. “Isso nos permite selecionar e otimizar dinamicamente o melhor modelo para cada solicitação, aplicando automaticamente avaliações, otimizações e estratégias de resiliência, como falhas de segurança.”
O sistema funciona coletando dados de desempenho de cada interação, identificando pontos fracos e melhorando iterativamente os modelos sem intervenção do cliente. “Como a Maitai está no meio do fluxo de inferência, coletamos sinais fortes que identificam onde os modelos não estão funcionando bem,” explicou DalSanto. “Esses ‘pontos fracos’ são agrupados, rotulados e ajustados gradualmente para abordar fraquezas específicas sem causar regressões.”
De 81% a 99% de precisão: os números por trás do avanço humano da IA
Os resultados demonstram melhorias significativas em múltiplas dimensões de desempenho. O tempo para o primeiro token — quão rapidamente uma IA começa a responder — caiu 73,4%, de 661 milissegundos para 176 milissegundos no percentil 90. Os tempos de conclusão gerais caíram 74,6%, de 1.446 milissegundos para 339 milissegundos.
Talvez mais significativamente, as melhorias de precisão seguiram uma trajetória clara para cima em quatro iterações de modelo, começando em 81,5% e alcançando 99,2% — um nível que excede o desempenho humano em muitos cenários de atendimento ao cliente.
“Temos visto mais de 70% das pessoas que ligam para a nossa IA não conseguirem distinguir a diferença entre um humano,” disse Bodewes ao VentureBeat. “A latência era, ou era, o indicativo de que era uma IA. Com um modelo customizado, afinado, que fala como uma pessoa, e hardware de super baixa latência, não há muito que nos impeça de cruzar o vale estranho e soar completamente humano.”
Os ganhos de desempenho se traduzem diretamente em resultados comerciais. “Um de nossos maiores clientes viu um aumento de 32% nos leads qualificados em comparação com uma versão anterior usando modelos de estado da arte,” observou Bodewes.
350 agentes humanos substituídos em um mês: centros de chamadas avançam com IA
As melhorias chegam em um momento em que os centros de chamadas enfrentam pressão crescente para reduzir custos enquanto mantêm a qualidade do serviço. Agentes humanos tradicionais requerem treinamento, coordenação de agendamentos e custos operacionais significativos que os agentes de IA podem eliminar.
“Os centros de chamadas estão realmente vendo enormes benefícios ao usar a Phonely para substituir agentes humanos,” disse Bodewes. “Um dos centros de atendimento com os quais trabalhamos está, na verdade, substituindo completamente 350 agentes humanos com a Phonely somente neste mês. Para uma perspectiva de centro de atendimento, isso é um divisor de águas, porque eles não precisam gerenciar calendário de agentes humanos, treinar agentes e equilibrar a oferta e a demanda.”
A tecnologia mostra força particular em casos de uso específicos. “A Phonely realmente se destaca em algumas áreas, incluindo desempenho de ponta em agendamento de compromissos e qualificação de leads especificamente, além do que os provedores legados conseguem fazer,” explicou Bodewes. A empresa tem parcerias com grandes empresas lidando com interações de clientes nas áreas de seguros, jurídico e automotivo.
A vantagem do hardware: por que os chips da Groq tornam a IA sub-segundo possível
Os chips de inferência de IA especializados da Groq, chamados Unidades de Processamento de Linguagem (LPUs), fornecem a base de hardware que torna a abordagem multi-modelo viável. Ao contrário dos processadores gráficos de propósito geral normalmente usados para inferência de IA, os LPUs são otimizados especificamente para a natureza sequencial do processamento de linguagem.
“A arquitetura do LPU é otimizada para controlar precisamente a movimentação de dados e a computação em um nível fino e com alta velocidade e previsibilidade, permitindo o gerenciamento eficiente de múltiplos pequenos conjuntos de ‘pesos delta’ (as LoRAs) em um modelo base comum, sem latência adicional,” disse Kantor.
A infraestrutura baseada em nuvem também resolve preocupações de escalabilidade que historicamente limitaram a implantação de IA. “A beleza de usar uma solução baseada em nuvem como a GroqCloud é que a Groq manuseia a orquestração e escalonamento dinâmico para nossos clientes para qualquer modelo de IA que oferecemos, incluindo modelos LoRA ajustados,” explicou Kantor.
Para as empresas, as vantagens econômicas parecem substanciais. “A simplicidade e eficiência do nosso design de sistema, baixo consumo de energia e alto desempenho do nosso hardware, permitem que a Groq forneça aos clientes o menor custo por token sem sacrificar desempenho à medida que escalonam,” disse Kantor.
Implantação de IA no mesmo dia: como as empresas evitam meses de integração
Um dos aspectos mais convincentes da parceria é a rapidez na implementação. Ao contrário das implantações de IA tradicionais que podem exigir meses de trabalho de integração, a abordagem da Maitai permite transições no mesmo dia para empresas que já usam modelos de propósito geral.
“Para empresas já em produção usando modelos de propósito geral, normalmente fazemos a transição para a Maitai no mesmo dia, sem interrupções,” disse DalSanto. “Começamos a coleta de dados imediata e, dentro de dias a uma semana, podemos entregar um modelo ajustado que é mais rápido e mais confiável do que a configuração original deles.”
Essa capacidade de implantação rápida aborda uma preocupação comum das empresas sobre projetos de IA: cronogramas de implementação longos que atrasam o retorno sobre o investimento. A abordagem em camada proxy significa que as empresas podem manter suas integrações de API existentes enquanto obtêm acesso a um desempenho em contínua melhoria.
O futuro da IA empresarial: modelos especializados substituem modelos para todas as tarefas
A colaboração sinaliza uma mudança mais ampla na arquitetura de IA empresarial, afastando-se de modelos monolíticos e de propósito geral em direção a sistemas especializados e específicos para tarefas. “Estamos observando uma demanda crescente de equipes que estão dividindo suas aplicações em cargas de trabalho menores e altamente especializadas, cada uma se beneficiando de adaptadores individuais,” disse DalSanto.
Essa tendência reflete uma compreensão amadurecida dos desafios de implantação de IA. Em vez de esperar que modelos únicos se destaquem em todas as tarefas, as empresas reconhecem cada vez mais o valor de soluções feitas para propósitos específicos que podem ser continuamente aprimoradas com base em dados de desempenho do mundo real.
“O hotswapping Multi-LoRA permite que as empresas implantem modelos mais rápidos e precisos personalizados precisamente para suas aplicações, removendo as barreiras tradicionais de custo e complexidade,” explicou DalSanto. “Isso muda fundamentalmente a forma como a IA empresarial é construída e implantada.”
A fundação técnica também possibilita aplicações mais sofisticadas à medida que a tecnologia amadurece. A infraestrutura da Groq pode suportar dezenas de modelos especializados em uma única instância, permitindo potencialmente que as empresas criem experiências de IA altamente personalizadas para diferentes segmentos de clientes ou casos de uso.
“O hotswapping Multi-LoRA permite inferências de baixa latência e alta precisão adaptadas para tarefas específicas,” disse DalSanto. “Nosso roteiro prioriza mais investimentos em infraestrutura, ferramentas e otimização para estabelecer a inferência específica para aplicações como o novo padrão.”
Para o mercado mais amplo de IA conversacional, a parceria demonstra que limitações técnicas antes consideradas intransponíveis podem ser abordadas por meio de infraestrutura especializada e design cuidadoso de sistemas. À medida que mais empresas implantam agentes telefônicos de IA, as vantagens competitivas demonstradas pela Phonely podem estabelecer novas expectativas básicas para desempenho e responsividade em interações de clientes automatizadas.
O sucesso também valida o modelo emergente de empresas de infraestrutura de IA colaborando para resolver desafios complexos de implantação. Essa abordagem colaborativa pode acelerar a inovação em todo o setor de IA empresarial, à medida que capacidades especializadas se combinam para oferecer soluções que superam o que qualquer fornecedor único poderia alcançar de forma independente. Se essa parceria for um indicativo, a era das conversas telefônicas evidentemente artificiais pode estar chegando ao fim mais rápido do que todos esperavam.
Insights diários sobre casos de uso comerciais com VB Daily
Se você deseja impressionar seu chefe, o VB Daily tem tudo cobrindo. Damos a você a pesquisa sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights e maximizar o ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters da VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Google claims its upgraded Gemini 2.5 Pro AI model excels at coding in Portuguese.
[the_ad id="145565"] Na quinta-feira, o Google anunciou uma atualização para seu modelo de pré-visualização Gemini 2.5 Pro, que a empresa afirma ser melhor em determinadas…
Co-fundador da Anthropic sobre a limitação de acesso ao Windsurf: ‘Seria estranho vender Claude para a OpenAI’
[the_ad id="145565"] O cofundador e Diretor de Ciência da Anthropic, Jared Kaplan, afirmou que sua empresa cortou o acesso direto da Windsurf aos modelos de IA Claude da…
A IA Pode Resolver a Epidemia da Solidão?
[the_ad id="145565"] Você vive em uma era de toques e cliques constantes, mas seu círculo pessoal está encolhendo rapidamente. De acordo com o aviso de 2023 do Cirurgião Geral…