Bolt42

A IA e os grandes modelos de linguagem (LLMs) que a sustentam possuem diversas aplicações úteis, mas, apesar de todo o seu potencial, não são muito confiáveis.

Ninguém sabe quando esse problema será resolvido, então é compreensível que startups estejam encontrando uma oportunidade em ajudar as empresas a garantir que os aplicativos alimentados por LLMs funcionem como pretendido.

A startup londrina Composo acredita que tem uma vantagem inicial ao tentar resolver esse problema, graças a seus modelos personalizados que podem ajudar as empresas a avaliar a precisão e a qualidade de aplicativos movidos por LLMs.

A empresa é semelhante à Agenta, Freeplay, Humanloop e LangSmith, que reivindicam oferecer uma alternativa mais sólida baseada em LLM ao teste humano, checklists e ferramentas de observabilidade existentes. No entanto, a Composo afirma que é diferente porque oferece tanto uma opção sem código quanto uma API. Isso é notável porque amplia o escopo de seu mercado potencial — você não precisa ser um desenvolvedor para utilizá-lo, e especialistas de domínio e executivos podem avaliar aplicativos de IA em busca de inconsistências, qualidade e precisão por conta própria.

Na prática, a Composo combina um modelo de recompensa treinado na saída que uma pessoa preferiria ver de um aplicativo de IA com um conjunto definido de critérios específicos para esse aplicativo, criando um sistema que essencialmente avalia as saídas do aplicativo em relação a esses critérios. Por exemplo, um chatbot de triagem médica pode ter seu cliente definindo diretrizes personalizadas para verificar sintomas de alerta, e a Composo pode pontuar quão consistentemente o aplicativo faz isso.

A empresa lançou recentemente uma API pública para o Composo Align, um modelo para avaliar aplicações LLM com base em quaisquer critérios.

A estratégia parece estar dando certo até certo ponto: a empresa conta com nomes como Accenture, Palantir e McKinsey em sua base de clientes e recentemente arrecadou US$ 2 milhões em financiamento pré-seed. O valor relativamente baixo levantado aqui não é incomum para uma startup no clima atual de venture capital, mas é notável porque, afinal, estamos em uma era de IA — o financiamento para esses tipos de empresas é abundante.

Mas, segundo o cofundador e CEO da Composo, Sebastian Fox, o número relativamente baixo se deve ao fato de que a abordagem da startup não é particularmente intensa em capital.

“Nos próximos três anos, pelo menos, não prevemos levantar centenas de milhões porque há muitas pessoas construindo modelos de base e fazendo isso de forma muito eficaz, e esse não é nosso diferencial”, disse Fox, ex-consultor da McKinsey. “Em vez disso, toda manhã, se eu acordar e ver uma matéria sobre um grande avanço da OpenAI em seus modelos, isso é bom para o meu negócio.”

Com o novo capital, a Composo planeja expandir sua equipe de engenharia (liderada pelo cofundador e CTO Luke Markham, um ex-engenheiro de aprendizado de máquina na Graphcore), adquirir mais clientes e fortalecer seus esforços em P&D. “O foco deste ano é muito mais sobre escalar a tecnologia que já temos entre essas empresas”, disse Fox.

O fundo britânico de pré-seed Twin Path Ventures liderou a rodada de investimento, que também contou com a participação de JVH Ventures e EWOR (que já havia apoiado a startup por meio de seu programa de aceleradora). “A Composo está abordando um gargalo crítico na adoção de IA empresarial”, disse um porta-voz do Twin Path em um comunicado.

Esse gargalo é um grande problema para o movimento geral da IA, especialmente no segmento empresarial, disse Fox. “As pessoas estão cansadas do frisson e agora estão pensando: ‘Bem, na verdade, isso realmente muda algo em meu negócio em sua forma atual? Porque não é confiável o suficiente, e não é consistente o suficiente. E mesmo que seja, você não pode me provar o quanto é,’” afirmou.

Esse gargalo pode tornar a Composo mais valiosa para empresas que desejam implementar IA, mas poderiam incorrer em riscos reputacionais ao fazê-lo. Fox afirma que é por isso que sua empresa optou por ser agnóstica em relação ao setor, mas ainda assim ter ressonância nos espaços de conformidade, jurídico, saúde e segurança.

Quanto à sua vantagem competitiva, Fox acredita que a P&D necessária para chegar aqui não é trivial. “Há tanto a arquitetura do modelo quanto os dados que usamos para treiná-lo”, disse ele, explicando que o Composo Align foi treinado em um “grande conjunto de dados de avaliações de especialistas.”

Ainda há a questão do que os gigantes da tecnologia poderiam fazer se simplesmente utilizassem suas enormes reservas financeiras para entrar nesse problema, mas a Composo acredita que possui uma vantagem de primeiro a entrar. “A outra [coisa] é os dados que acumulamos ao longo do tempo”, disse Fox, referindo-se a como a Composo tem construído preferências de avaliação.

Como avalia aplicativos com base em um conjunto flexível de critérios, a Composo também se vê como mais adequada para a ascensão da IA agentiva do que os concorrentes que utilizam uma abordagem mais restrita. “Na minha opinião, definitivamente não estamos na fase em que os agentes funcionam bem, e é isso que estamos tentando ajudar a resolver”, disse Fox.

A TechCrunch tem um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.


    19 − doze =

    Bolt42