A IA está se infiltrando em todos os aspectos da pesquisa biotech e farmacêutica, mas, como em outras indústrias, sua implementação nunca é tão simples quanto se gostaria. Converge Bio desenvolveu uma ferramenta para ajudar empresas a fazer seus LLMs focados em biologia realmente funcionarem, desde a “enriquecimento” de dados até a explicação de suas respostas. A empresa arrecadou $5,5 milhões em uma rodada de investimento seed para escalar seu produto.
“Um modelo é apenas um modelo. Não é suficiente”, disse Dov Gertz, CEO e co-fundador. “Um pipeline deve ser criado para que as empresas possam realmente usar o modelo em seus próprios processos de P&D. O mercado é muito fragmentado, mas a indústria farmacêutica e de biotecnologia deseja consumir essa tecnologia de uma maneira consolidada, em um só lugar. Queremos ser esse lugar.”
Se você não é um engenheiro de aprendizado de máquina trabalhando em descobertas de medicamentos, esse pode não ser um problema familiar para você. Mas, basicamente, existem modelos fundamentais poderosos, grandes modelos de linguagem treinados não em livros e na internet, mas em enormes bancos de dados de DNA, estruturas de proteínas e genômica.
Esses modelos são poderosos e versáteis, mas como os LLMs usados em produtos como ChatGPT e Cursor, requerem muito trabalho para serem moldados de maneira que as pessoas possam realmente usar no dia a dia. Esse trabalho é especialmente desafiador em domínios especializados como microbiologia ou imunologia. Transformar um LLM “bruto” treinado em bilhões de sequências de proteínas em algo que um técnico de laboratório possa usar como parte de sua pesquisa normal é um problema não trivial.
Como exemplo, Gertz sugeriu a pesquisa de anticorpos. Um LLM treinado em biologia específica de anticorpos existe, mas é muito geral. A Converge Bio oferece uma série de melhorias que podem ser feitas de forma segura e utilizando a propriedade intelectual de uma empresa.
Primeiro é o “enriquecimento de dados”, que aumenta o LLM de anticorpos com dados importantes relacionados, como interações entre antígeno-anticorpo e proteína-proteína. Em seguida, carregado com conhecimentos mais específicos, ele pode ser ajustado para o antígeno específico que a equipe está buscando, sobre o qual podem ter dados proprietários em laboratório.
“Agora temos uma aplicação: a entrada é uma sequência, a saída é afinidade de ligação”, disse Gertz. Então, a plataforma fornece outro nível importante: a explicabilidade. Os pesquisadores podem aprofundar a saída para descobrir não apenas que “essa sequência funciona melhor do que aquela”, mas identificar, até o nível de aminoácido ou par de bases, o que parte da sequência parece estar fazendo com que funcione melhor.
Por fim, ela gera novas sequências que proporcionam resultados melhorados, igualmente com explicabilidade. Gertz observou que a explicabilidade os surpreendeu com sua popularidade entre os clientes — faz sentido, já que permite que especialistas apliquem sua expertise de domínio (por exemplo, interações proteicas) a essa nova e mais obscura área de bioinformática e aprendizado de máquina.
A Converge utiliza muitos modelos fundamentais de código aberto e gratuitos, mas também está trabalhando na criação do seu próprio. Já possui um processo proprietário, disse Gertz, para a parte de explicabilidade. E o “currículo” de enriquecimento de dados também é inteiramente deles — não um processo trivial. Os métodos de treinamento, ele destacou, são um dos poucos segredos guardados a sete chaves pelas empresas de AI mais bem-sucedidas.
Essa é parte da barreira que eles esperam construir, além do fato de que, como Gertz colocou, “Essa é provavelmente a maior oportunidade na biotecnologia nos últimos cinco décadas.”
No entanto, muitas, talvez a maioria, das empresas de biotecnologia não têm uma solução dedicada para realizar trabalhos relacionados a LLMs em seu campo, e estão ativamente buscando nichos que soluções generalistas não atendem.
“A ideia é ser a loja completa para genAI em biotecnologia, e então usar isso como uma porta de entrada para oferecer mais ao longo do tempo”, disse Gertz. “O comportamento na indústria farmacêutica e biológica é que, uma vez que têm laços com um fornecedor em quem confiam, querem usá-los em outros casos de uso, seja design de anticorpos ou design de vacinas. É por isso que acredito que essa posição é a melhor para este momento no mercado.”
Os investidores parecem concordar, investindo $5,5 milhões em uma rodada de seed liderada pela TLV Partners.
A empresa usará o dinheiro para contratar e adquirir clientes, como as startups costumam fazer nesta fase, mas também publicará um artigo científico sobre design de anticorpos (usando seus próprios sistemas, claro) e treinando “um modelo fundamental adequado”.
Conteúdo relacionado
H, a startup de IA que arrecadou R$ 220 milhões, lança seu primeiro produto: Runner H para aplicações ‘agenitcas’
[the_ad id="145565"] H, a startup parisiense fundada por ex-alunos do Google, causou um grande alvoroço no verão passado quando, de forma inesperada, anunciou uma rodada de…
Esta Semana em IA: Comissão do Congresso alerta sobre AGI da China
[the_ad id="145565"] Oi, pessoal, bem-vindos ao boletim informativo regular de IA da TechCrunch. Se você deseja recebê-lo em sua caixa de entrada todas as quartas-feiras,…
O Messenger ganha chamadas de vídeo em HD, fundos de IA e muito mais
[the_ad id="145565"] A Meta está apresentando novos recursos para o Messenger, seu aplicativo de mensagens, incluindo a supressão de ruído alimentada por IA. O Messenger agora…