Bolt42

Imagine um mundo onde podemos prever o comportamento da vida apenas analisando uma sequência de letras. Isso não é ficção científica ou um mundo mágico, mas uma realidade onde cientistas têm se esforçado para alcançar esse objetivo por anos. Essas sequências, compostas por quatro nucleotídeos (A, T, C e G), contêm as instruções fundamentais para a vida na Terra, desde o menor microbio até o maior mamífero. Decifrar essas sequências pode desbloquear processos biológicos complexos, transformando áreas como medicina personalizada e sustentabilidade ambiental.

No entanto, apesar desse imenso potencial, decifrar até mesmo os genomas microbianos mais simples é uma tarefa altamente complexa. Esses genomas consistem em milhões de pares de bases de DNA que regulam as interações entre DNA, RNA e proteínas — os três elementos-chave no dogma central da biologia molecular. Essa complexidade existe em múltiplos níveis, desde moléculas individuais até genomas inteiros, criando um vasto campo de informações genéticas que evoluiu ao longo de bilhões de anos.

Ferramentas computacionais tradicionais têm lutado para lidar com a complexidade das sequências biológicas. Mas, com o surgimento da IA generativa, agora é possível escalar trilhões de sequências e entender relações complexas entre sequências de tokens. Construindo sobre esse avanço, pesquisadores do Arc Institute, da Universidade de Stanford e da NVIDIA têm trabalhado na construção de um sistema de IA que pode entender sequências biológicas da mesma forma que modelos de linguagem entendem o texto humano. Agora, eles fizeram um desenvolvimento revolucionário ao criar um modelo que captura tanto a natureza multimodal do dogma central quanto as complexidades da evolução. Essa inovação pode levar à previsão e ao design de novas sequências biológicas, desde moléculas individuais até genomas inteiros. Neste artigo, exploraremos como essa tecnologia funciona, suas potenciais aplicações, os desafios que enfrenta e o futuro da modelagem genômica.

EVO 1: Um Modelo Pioneiro em Modelagem Genômica

Esta pesquisa ganhou atenção no final de 2024, quando a NVIDIA e seus colaboradores introduziram Evo 1, um modelo inovador para analisar e gerar sequências biológicas em DNA, RNA e proteínas. Treinado em 2,7 milhões de genomas procariontes e de fagos, totalizando 300 bilhões de tokens nucleotídicos, o modelo focou na integração do dogma central da biologia molecular, modelando o fluxo de informação genética do DNA para o RNA e para as proteínas. Sua arquitetura StripedHyena, um modelo híbrido que utiliza filtros convolucionais e portões, manipulou eficientemente longos contextos de até 131.072 tokens. Esse design permitiu ao Evo 1 conectar pequenas mudanças na sequência a efeitos mais amplos em nível sistêmico e organizacional, ligando a biologia molecular à genômica evolutiva.

Evo 1 foi o primeiro passo na modelagem computacional da evolução biológica. Ele previu com sucesso interações moleculares e variações genéticas analisando padrões evolutivos em sequências genéticas. No entanto, à medida que os cientistas buscaram aplicá-lo a genomas eucariontes mais complexos, as limitações do modelo se tornaram claras. O Evo 1 teve dificuldade em resolver nucleotídeos únicos em longas sequências de DNA e foi computacionalmente caro para genomas maiores. Esses desafios levaram à necessidade de um modelo mais avançado capaz de integrar dados biológicos em múltiplas escalas.

EVO 2: Um Modelo Fundamental para Modelagem Genômica

Baseando-se nos aprendizados do Evo 1, pesquisadores lançaram Evo 2 em fevereiro de 2025, avançando no campo da modelagem de sequências biológicas. Treinado em impressionantes 9,3 trilhões de pares de bases de DNA, o modelo aprendeu a compreender e prever as consequências funcionais das variações genéticas em todos os domínios da vida, incluindo bactérias, arqueias, plantas, fungos e animais. Com mais de 40 bilhões de parâmetros, o modelo do Evo 2 pode lidar com um comprimento de sequência sem precedentes de até 1 milhão de pares de bases, algo que modelos anteriores, incluindo o Evo 1, não conseguiam administrar.

O que diferencia o Evo 2 de seus predecessores é sua capacidade de modelar não apenas as sequências de DNA, mas também as interações entre DNA, RNA e proteínas — todo o dogma central da biologia molecular. Isso permite que o Evo 2 preveja com precisão o impacto de mutações genéticas, desde as menores mudanças nos nucleotídeos até variações estruturais maiores, de maneiras que antes eram impossíveis.

Uma característica chave do Evo 2 é sua forte capacidade de previsão em zero-shot, que permite prever os efeitos funcionais de mutações sem exigir afinação específica para a tarefa. Por exemplo, ele classifica com precisão variantes clinicamente significativas do BRCA1, um fator crucial na pesquisa sobre o câncer de mama, analisando apenas sequências de DNA.

Aplicações Potenciais nas Ciências Biomoleculares

As capacidades do Evo 2 abrem novas fronteiras em genômica, biologia molecular e biotecnologia. Algumas das aplicações mais promissoras incluem:

  • Saúde e Descoberta de Medicamentos: O Evo 2 pode prever quais variantes genéticas estão associadas a doenças específicas, auxiliando no desenvolvimento de terapias direcionadas. Por exemplo, em testes com variantes do gene BRCA1 associado ao câncer de mama, o Evo 2 alcançou mais de 90% de precisão na previsão de quais mutações são benignas versus potencialmente patogênicas. Esses insights podem acelerar o desenvolvimento de novos medicamentos e tratamentos personalizados.
  • Biologia Sintética e Engenharia Genética: A capacidade do Evo 2 de gerar genomas inteiros abre novas possibilidades no design de organismos sintéticos com características desejadas. Pesquisadores podem utilizar o Evo 2 para criar genes com funções específicas, avançando no desenvolvimento de biocombustíveis, produtos químicos ecológicos e novas terapias.
  • Biotecnologia Agrícola: Ele pode ser utilizado para projetar culturas geneticamente modificadas com características aprimoradas, como resistência à seca ou resiliência a pragas, contribuindo para a segurança alimentar global e a sustentabilidade agrícola.
  • Ciência Ambiental: O Evo 2 pode ser aplicado para projetar biocombustíveis ou engenhar proteínas que degradam poluentes ambientais como óleo ou plástico, contribuindo para esforços de sustentabilidade.​

Desafios e Direções Futuras

Apesar de suas impressionantes capacidades, o Evo 2 enfrenta desafios. Um obstáculo chave é a complexidade computacional envolvida em treinar e executar o modelo. Com uma janela de contexto de 1 milhão de pares de bases e 40 bilhões de parâmetros, o Evo 2 requer recursos computacionais significativos para funcionar de forma eficaz. Isso dificulta que equipes de pesquisa menores possam utilizar todo o seu potencial sem acesso a infraestruturas de computação de alto desempenho.

Adicionalmente, embora o Evo 2 se destaque em prever os efeitos de mutações genéticas, ainda há muito a aprender sobre como usá-lo para projetar novos sistemas biológicos do zero. Gerar sequências biológicas realistas é apenas o primeiro passo; o verdadeiro desafio está em entender como usar esse poder para criar sistemas biológicos funcionais e sustentáveis.

Acessibilidade e Democratização da IA em Genômica

Um dos aspectos mais empolgantes do Evo 2 é sua disponibilidade de código aberto. Para democratizar o acesso a ferramentas avançadas de modelagem genômica, a NVIDIA disponibilizou parâmetros do modelo, código de treinamento e conjuntos de dados publicamente. Essa abordagem de acesso aberto permite que pesquisadores de todo o mundo explorem e ampliem as capacidades do Evo 2, acelerando a inovação na comunidade científica.

A Conclusão

O Evo 2 representa um avanço significativo na modelagem genômica, utilizando IA para decodificar a complexa linguagem genética da vida. Sua capacidade de modelar sequências de DNA e suas interações com RNA e proteínas abre novas possibilidades na saúde, descoberta de medicamentos, biologia sintética e ciência ambiental. O Evo 2 pode prever mutações genéticas e projetar novas sequências biológicas, oferecendo um potencial transformador para medicina personalizada e soluções sustentáveis. No entanto, sua complexidade computacional apresenta desafios, especialmente para equipes de pesquisa menores. Ao tornar o Evo 2 de código aberto, a NVIDIA está permitindo que pesquisadores em todo o mundo explorem e ampliem suas capacidades, impulsionando a inovação em genômica e biotecnologia. À medida que a tecnologia continua a evoluir, ela tem o potencial de transformar o futuro das ciências biológicas e da sustentabilidade ambiental.


    3 + três =

    Bolt42