Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder de inteligência artificial. Saiba mais
A startup de inteligência artificial baseada em Tóquio, Sakana, co-fundada por ex-cientistas sêniores da Google AI, incluindo Llion Jones e David Ha, revelou um novo tipo de arquitetura de modelo de IA chamada Máquinas de Pensamento Contínuo (CTM).
As CTMs são projetadas para inaugurar uma nova era de modelos de linguagem de IA que serão mais flexíveis e capazes de lidar com uma ampla gama de tarefas cognitivas — como resolver labirintos complexos ou tarefas de navegação sem dicas de posição ou embeddings espaciais pré-existentes — aproximando-os mais da maneira como os seres humanos raciocinam sobre problemas desconhecidos.
Em vez de depender de camadas fixas e paralelas que processam entradas simultaneamente — como fazem os modelos Transformer — as CTMs desenrolam a computação ao longo de etapas dentro de cada unidade de entrada/saída, conhecida como um “neurônio” artificial.
Cada neurônio no modelo mantém um breve histórico de sua atividade anterior e usa essa memória para decidir quando ativar novamente.
Esse estado interno adicional permite que as CTMs ajustem a profundidade e a duração de seu raciocínio dinamicamente, dependendo da complexidade da tarefa. Assim, cada neurônio é muito mais denso e complexo em informações do que em um modelo Transformer típico.
A startup publicou um artigo na revista de acesso aberto arXiv, descrevendo seu trabalho, um microsite e um repositório no GitHub.
Como as CTMs diferem dos LLMs baseados em Transformer
A maioria dos modelos de linguagem de grande porte modernos (LLMs) ainda é fundamentalmente baseada na arquitetura “Transformer” delineada no artigo seminal de 2017 de pesquisadores do Google Brain intitulado “A Atenção é Tudo que Você Precisa.”
Esses modelos usam camadas fixas e paralelizadas de neurônios artificiais para processar entradas em uma única passagem — sejam essas entradas originadas de prompts de usuário no momento da inferência ou de dados rotulados durante o treinamento.
Em contraste, as CTMs permitem que cada neurônio artificial opere em sua própria linha do tempo interna, tomando decisões de ativação com base em uma memória de curto prazo de seus estados anteriores. Essas decisões se desenrolam ao longo de etapas internas conhecidas como “ticks”, permitindo ao modelo ajustar a duração de seu raciocínio dinamicamente.
Essa arquitetura baseada no tempo permite que as CTMs raciocinem progressivamente, ajustando quanto tempo e quão profundamente computam — levando um número diferente de ticks de acordo com a complexidade da entrada.
A memória específica do neurônio e a sincronização ajudam a determinar quando a computação deve continuar — ou parar.
O número de ticks muda de acordo com a informação inserida e pode ser mais ou menos mesmo que a informação de entrada seja idêntica, porque cada neurônio decide quantos ticks deve passar antes de fornecer uma saída (ou não fornecer nenhuma saída).
Isso representa tanto uma mudança técnica quanto filosófica em relação ao aprendizado profundo convencional, avançando para um modelo mais biologicamente fundamentado. A Sakana enquadrou as CTMs como um passo em direção a uma inteligência mais semelhante à humana — sistemas que se adaptam ao longo do tempo, processam informações de forma flexível e se envolvem em um cálculo interno mais profundo quando necessário.
O objetivo da Sakana é “alcançar, eventualmente, níveis de competência que rivalizem ou superem os cérebros humanos.”
Usando linhas do tempo personalizadas variáveis para proporcionar mais inteligência
A CTM é construída em torno de dois mecanismos principais.
Primeiro, cada neurônio no modelo mantém uma breve “história” ou memória de trabalho de quando foi ativado e por quê, e usa essa história para tomar a decisão de quando disparar a seguir.
Segundo, a sincronização neural — como e quando grupos dos neurônios artificiais de um modelo “disparam”, ou processam informações juntos — é permitida acontecer organicamente.
Grupos de neurônios decidem quando disparar juntos com base em alinhamento interno, e não em instruções externas ou modelagem de recompensa. Esses eventos de sincronização são usados para modular a atenção e produzir saídas — ou seja, a atenção é direcionada para as áreas onde mais neurônios estão disparando.
O modelo não está apenas processando dados, mas cronometrando seu pensamento para coincidir com a complexidade da tarefa.
Juntos, esses mecanismos permitem que as CTMs reduzam a carga computacional em tarefas mais simples, aplicando um raciocínio mais profundo e prolongado quando necessário.
Em demonstrações que vão desde classificação de imagens e resolução de labirintos 2D até aprendizado por reforço, as CTMs demonstraram tanto interpretabilidade quanto adaptabilidade. Seus passos de “pensamento” internos permitem que os pesquisadores observem como as decisões se formam ao longo do tempo — um nível de transparência raramente visto em outras famílias de modelos.
Resultados iniciais: como as CTMs se comparam com modelos Transformer em benchmarks e tarefas-chave
A Máquina de Pensamento Contínuo da Sakana AI não foi projetada para perseguir pontuações de benchmark que lideram a tabela, mas seus resultados iniciais indicam que seu design inspirado biologicamente não vem ao custo de capacidade prática.
No amplamente utilizado benchmark ImageNet-1K, a CTM alcançou 72,47% de acurácia top-1 e 89,89% de acurácia top-5.
Embora isso fique aquém dos modelos transformer de última geração, como ViT ou ConvNeXt, ainda é competitivo — especialmente considerando que a arquitetura CTM é fundamentalmente diferente e não foi otimizada apenas para desempenho.
O que se destaca mais são os comportamentos das CTMs em tarefas sequenciais e adaptativas. Em cenários de resolução de labirintos, o modelo produz saídas direcionais passo a passo a partir de imagens brutas — sem usar embeddings posicionais, que são tipicamente essenciais nos modelos transformer. As trilhas de atenção visual revelam que as CTMs frequentemente prestam atenção a regiões da imagem em uma sequência semelhante à humana, como identificar características faciais de olhos a nariz e boca.
O modelo também exibe uma forte calibração: suas estimativas de confiança se alinham de perto com a precisão real das previsões. Ao contrário da maioria dos modelos que exigem ajuste de temperatura ou correções pós-hoc, as CTMs melhoram a calibração de forma natural ao média suas previsões ao longo do tempo à medida que seu raciocínio interno se desenrola.
Essa mistura de raciocínio sequencial, calibração natural e interpretabilidade oferece uma troca valiosa para aplicações onde confiança e rastreabilidade importam tanto quanto a precisão bruta.
O que é necessário antes que as CTMs estejam prontas para implantação empresarial e comercial?
Embora as CTMs mostrem uma promessa substancial, a arquitetura ainda é experimental e não está otimizada para implantação comercial. A Sakana AI apresenta o modelo como uma plataforma para mais pesquisa e exploração, em vez de uma solução empresarial plug-and-play.
Treinar CTMs atualmente exige mais recursos do que modelos transformer padrão. Sua estrutura temporal dinâmica expande o espaço de estado, e um ajuste cuidadoso é necessário para garantir um aprendizado estável e eficiente ao longo dos passos de tempo internos. Além disso, a depuração e o suporte a ferramentas ainda estão acompanhando — muitas das bibliotecas e perfis de hoje não são projetados com modelos que se desenrolam ao longo do tempo em mente.
Ainda assim, a Sakana lançou uma sólida base para a adoção pela comunidade. A implementação completa da CTM é de código aberto no GitHub e inclui scripts de treinamento específicos para domínio, checkpoints pré-treinados, utilitários para plotagem e ferramentas de análise. As tarefas suportadas incluem classificação de imagens (ImageNet, CIFAR), navegação de labirinto 2D, QAMNIST, computação de paridade, ordenação e aprendizado por reforço.
Uma demonstração interativa na web também permite que os usuários explorem a CTM em ação, observando como sua atenção muda ao longo do tempo durante a inferência — uma maneira atraente de entender o fluxo de raciocínio da arquitetura.
Para que as CTMs cheguem a ambientes de produção, mais progresso é necessário em otimização, eficiência de hardware e integração com pipelines de inferência padrão. Mas com código acessível e documentação ativa, a Sakana facilitou para pesquisadores e engenheiros começarem a experimentar com o modelo hoje.
O que os líderes de IA empresarial devem saber sobre as CTMs
A arquitetura CTM ainda está em seus primeiros dias, mas os tomadores de decisão empresarial já devem prestar atenção. Sua capacidade de alocar computação adaptivamente, autorregular a profundidade do raciocínio e oferecer uma clara interpretabilidade pode se mostrar altamente valiosa em sistemas de produção enfrentando complexidade variável de entrada ou rigorosos requisitos regulatórios.
Os engenheiros de IA que gerenciam a implantação de modelos encontrarão valor na inferência energeticamente eficiente das CTMs — especialmente em aplicações em larga escala ou sensíveis à latência.
Entretanto, a arquitetura de raciocínio passo a passo desbloqueia uma explicabilidade mais rica, permitindo que as organizações rastreiem não apenas o que um modelo previu, mas também como ele chegou lá.
Para equipes de orquestração e MLOps, as CTMs se integram com componentes familiares, como codificadores baseados em ResNet, permitindo uma incorporação mais suave aos fluxos de trabalho existentes. E os líderes de infraestrutura podem usar os ganchos de perfilagem da arquitetura para melhor alocar recursos e monitorar a dinâmica de desempenho ao longo do tempo.
As CTMs ainda não estão prontas para substituir os transformers, mas representam uma nova categoria de modelo com novas possibilidades. Para organizações que priorizam segurança, interpretabilidade e computação adaptativa, a arquitetura merece uma atenção mais próxima.
A história de pesquisa em IA cheia de altos e baixos da Sakana
Em fevereiro, a Sakana apresentou o AI CUDA Engineer, um sistema de IA agente projetado para automatizar a produção de kernels CUDA altamente otimizados, os conjuntos de instruções que permitem que as unidades de processamento gráfico (GPUs) da Nvidia (e de outros) executem código com eficiência em paralelo por meio de múltiplos “threads” ou unidades computacionais.
A promessa era significativa: aumentos de velocidade de 10x a 100x em operações de ML. No entanto, logo após o lançamento, avaliadores externos descobriram que o sistema estava explorando fraquezas no sandbox de avaliação — essencialmente “trapaceando” ao contornar verificações de correção através de uma exploração de memória.
Em um post público, a Sakana reconheceu o problema e creditou membros da comunidade por sinalizá-lo.
Desde então, eles reformularam suas ferramentas de avaliação e perfilagem em tempo de execução para eliminar brechas semelhantes e estão revisando seus resultados e artigos de pesquisa em conformidade. O incidente ofereceu um teste do mundo real de um dos valores declarados da Sakana: abraçar a iteração e a transparência na busca por melhores sistemas de IA.
Apostando em mecanismos evolucionários
A ética fundacional da Sakana AI reside em mesclar computação evolucionária com aprendizado de máquina moderno. A empresa acredita que os modelos atuais são rígidos demais — presos em arquiteturas fixas e exigindo re-treinamento para novas tarefas.
Em contraste, a Sakana visa criar modelos que se adaptem em tempo real, exibam comportamento emergente e escalem naturalmente por meio de interação e feedback, muito parecido com organismos em um ecossistema.
Essa visão já está se manifestando em produtos como o Transformer², um sistema que ajusta parâmetros de LLM em tempo de inferência sem re-treinamento, utilizando truques algébricos como decomposição de valor singular.
É também evidente em seu compromisso de tornar os sistemas como o AI Scientist de código aberto — mesmo em meio à controvérsia — demonstrando disposição para engajar com a comunidade de pesquisa mais ampla, e não apenas competir com ela.
Enquanto grandes empresas como OpenAI e Google se aprofundam em modelos de fundação, a Sakana está traçando um curso diferente: pequenos sistemas dinâmicos, inspirados biologicamente, que pensam ao longo do tempo, colaboram por design e evoluem através da experiência.
Insights diários sobre casos de uso empresarial com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós fornecemos o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights que maximizem o ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Relatório de uso de IA da SimilarWeb revela 5 descobertas surpreendentes, incluindo crescimento explosivo em ferramentas de programação.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre coberturas líder de mercado em IA. Saiba Mais…
A Revolução da Interoperabilidade: Como o MCP Está se Tornando a Linguagem Universal da IA Empresarial
[the_ad id="145565"] Here's the rewritten content in Portuguese with the original HTML tags preserved: <div> <div id="boilerplate_2682874" class="post-boilerplate…
O DJ de IA do Spotify agora permite que você use comandos de voz para personalizar suas músicas
[the_ad id="145565"] Com o objetivo de tornar seu DJ de IA mais interativo, o Spotify está atualizando o recurso para permitir que os usuários solicitem música ou mudem o clima…