Bolt42

Uma nova empresa, Deep Cogito, surgiu do modo stealth com uma família de modelos de IA disponíveis publicamente que podem alternar entre modos de “raciocínio” e não-raciocínio.

Modelos de raciocínio, como o o1 da OpenAI, mostraram grande promessa em áreas como matemática e física, graças à sua capacidade de verificar fatos de forma eficaz ao trabalhar em problemas complexos passo a passo. No entanto, esse raciocínio tem um custo: maior consumo computacional e latência. É por isso que laboratórios como a Anthropic estão perseguindo arquiteturas de modelos “híbridos” que combinam componentes de raciocínio com elementos padrão e não-raciocínio. Os modelos híbridos podem responder rapidamente a perguntas simples enquanto dedicam tempo extra para considerar consultas mais desafiadoras.

Todos os modelos da Deep Cogito, chamados Cogito 1, são modelos híbridos. A Cogito afirma que eles superam os melhores modelos abertos do mesmo tamanho, incluindo modelos da Meta e da startup chinesa DeepSeek.

“Cada modelo pode responder diretamente […] ou se autoconscienciar antes de responder (como modelos de raciocínio),” explicou a empresa em um post de blog. “[Todos] foram desenvolvidos por uma pequena equipe em aproximadamente 75 dias.”

Os modelos Cogito 1 variam de 3 bilhões a 70 bilhões de parâmetros, e a Cogito afirma que modelos com até 671 bilhões de parâmetros se juntarão a eles nas próximas semanas e meses. Parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, com mais parâmetros geralmente sendo melhor.

É importante esclarecer que o Cogito 1 não foi desenvolvido do zero. A Deep Cogito se baseou nos modelos abertos Llama da Meta e Qwen da Alibaba para criar o seu próprio. A empresa afirma que aplicou abordagens de treinamento inovadoras para aumentar o desempenho dos modelos base e permitir o raciocínio alternável.

De acordo com os resultados da avaliação interna da Cogito, o maior modelo Cogito 1, o Cogito 70B, com raciocínio, supera o modelo de raciocínio R1 da DeepSeek em algumas avaliações de matemática e linguagem. O Cogito 70B com raciocínio desativado também eclipsa o modelo Llama 4 Scout recentemente lançado pela Meta no LiveBench, um teste de IA de uso geral.

Todos os modelos Cogito 1 estão disponíveis para download ou uso através de APIs nos provedores de nuvem Fireworks AI e Together AI.

Deep Cogito
Desempenho do Cogito 1 em comparação com outros modelos de IA abertos popularesCréditos da Imagem: Deep Cogito

“Atualmente, ainda estamos nas primeiras etapas de [nossa] curva de escalonamento, tendo utilizado apenas uma fração do computacional normalmente reservado para o treinamento pós/continuado de modelos de linguagem large traditional,” escreveu a Cogito em seu post no blog. “No futuro, estamos investigando abordagens complementares de treino pós-treinamento para autoaperfeiçoamento.”

De acordo com arquivos do Estado da Califórnia, a Deep Cogito, baseada em San Francisco, foi fundada em junho de 2024. A página da empresa no LinkedIn lista dois cofundadores, Drishan Arora e Dhruv Malhotra. Malhotra foi anteriormente gerente de produto no laboratório de IA do Google DeepMind, onde trabalhou em tecnologia de busca generativa. Arora foi engenheiro de software sênior no Google.

A Deep Cogito, cujos investidores incluem South Park Commons, de acordo com PitchBook, tem a ambição de construir “superinteligência geral.” Os fundadores da empresa entendem a frase como um IA capaz de realizar tarefas melhor do que a maioria dos humanos e “descobrir capacidades totalmente novas que ainda não conseguimos imaginar.”


    7 − 3 =

    Bolt42