Deep Cogito emerge do modo stealth com modelos de 'raciocínio' híbridos de IA

Uma nova empresa, Deep Cogito, surgiu do modo stealth com uma família de modelos de IA disponíveis publicamente que podem alternar entre modos de “raciocínio” e não-raciocínio.

Modelos de raciocínio, como o o1 da OpenAI, mostraram grande promessa em áreas como matemática e física, graças à sua capacidade de verificar fatos de forma eficaz ao trabalhar em problemas complexos passo a passo. No entanto, esse raciocínio tem um custo: maior consumo computacional e latência. É por isso que laboratórios como a Anthropic estão perseguindo arquiteturas de modelos “híbridos” que combinam componentes de raciocínio com elementos padrão e não-raciocínio. Os modelos híbridos podem responder rapidamente a perguntas simples enquanto dedicam tempo extra para considerar consultas mais desafiadoras.

Todos os modelos da Deep Cogito, chamados Cogito 1, são modelos híbridos. A Cogito afirma que eles superam os melhores modelos abertos do mesmo tamanho, incluindo modelos da Meta e da startup chinesa DeepSeek.

“Cada modelo pode responder diretamente […] ou se autoconscienciar antes de responder (como modelos de raciocínio),” explicou a empresa em um post de blog. “[Todos] foram desenvolvidos por uma pequena equipe em aproximadamente 75 dias.”

Os modelos Cogito 1 variam de 3 bilhões a 70 bilhões de parâmetros, e a Cogito afirma que modelos com até 671 bilhões de parâmetros se juntarão a eles nas próximas semanas e meses. Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, com mais parâmetros geralmente sendo melhor.

É importante esclarecer que o Cogito 1 não foi desenvolvido do zero. A Deep Cogito se baseou nos modelos abertos Llama da Meta e Qwen da Alibaba para criar o seu próprio. A empresa afirma que aplicou abordagens de treinamento inovadoras para aumentar o desempenho dos modelos base e permitir o raciocínio alternável.

De acordo com os resultados da avaliação interna da Cogito, o maior modelo Cogito 1, o Cogito 70B, com raciocínio, supera o modelo de raciocínio R1 da DeepSeek em algumas avaliações de matemática e linguagem. O Cogito 70B com raciocínio desativado também eclipsa o modelo Llama 4 Scout recentemente lançado pela Meta no LiveBench, um teste de IA de uso geral.

Todos os modelos Cogito 1 estão disponíveis para download ou uso através de APIs nos provedores de nuvem Fireworks AI e Together AI.

“Atualmente, ainda estamos nas primeiras etapas de [nossa] curva de escalonamento, tendo utilizado apenas uma fração do computacional normalmente reservado para o treinamento pós/continuado de modelos de linguagem large traditional,” escreveu a Cogito em seu post no blog. “No futuro, estamos investigando abordagens complementares de treino pós-treinamento para autoaperfeiçoamento.”

De acordo com arquivos do Estado da Califórnia, a Deep Cogito, baseada em San Francisco, foi fundada em junho de 2024. A página da empresa no LinkedIn lista dois cofundadores, Drishan Arora e Dhruv Malhotra. Malhotra foi anteriormente gerente de produto no laboratório de IA do Google DeepMind, onde trabalhou em tecnologia de busca generativa. Arora foi engenheiro de software sênior no Google.

A Deep Cogito, cujos investidores incluem South Park Commons, de acordo com PitchBook, tem a ambição de construir “superinteligência geral.” Os fundadores da empresa entendem a frase como um IA capaz de realizar tarefas melhor do que a maioria dos humanos e “descobrir capacidades totalmente novas que ainda não conseguimos imaginar.”