Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder do setor. Saiba Mais
Deep Cogito, uma nova startup de pesquisa em IA localizada em São Francisco, oficialmente saiu do modo stealth hoje com o Cogito v1, uma nova linha de modelos de linguagem de código aberto (LLMs) ajustados a partir do Llama 3.2 da Meta e equipados com capacidades de raciocínio híbrido — a habilidade de responder de forma rápida e imediata ou de “se auto-refletir” como a série “o” da OpenAI e o DeepSeek R1.
A empresa tem como objetivo ultrapassar os limites da IA além das limitações atuais de supervisão humana, permitindo que os modelos refinem e internalizem iterativamente suas próprias estratégias de raciocínio aprimoradas. O objetivo final é desenvolver superinteligência — uma IA mais inteligente que todos os humanos em todos os domínios — no entanto, a empresa afirma que “Todos os modelos que criamos serão de código aberto.”
O CEO e co-fundador da Deep Cogito, Drishan Arora — um ex-engenheiro de software sênior no Google que afirma ter liderado a modelagem de grandes modelos de linguagem (LLM) para o produto de busca generativa do Google —também afirmou em uma postagem no X que são “os modelos abertos mais fortes em sua escala – incluindo aqueles do LLaMA, DeepSeek e Qwen.”
A linha inicial de modelos inclui cinco tamanhos-base: 3 bilhões, 8 bilhões, 14 bilhões, 32 bilhões e 70 bilhões de parâmetros, já disponíveis na comunidade de compartilhamento de código de IA Hugging Face, Ollama, e através de interfaces de programação de aplicativos (API) no Fireworks e Together AI.
Estes estão disponíveis sob os termos de licença da Llama, que permitem uso comercial — assim, empresas terceiras poderiam utilizá-los em produtos pagos — até 700 milhões de usuários mensais, momento em que é necessário obter uma licença paga da Meta.
A empresa planeja lançar modelos ainda maiores — com até 671 bilhões de parâmetros — nos próximos meses.
Arora descreve a abordagem de treinamento da empresa, destilação iterativa e amplificação (IDA), como uma alternativa inovadora ao aprendizado de reforço a partir de feedback humano (RLHF) ou destilação de modelo professor.
A ideia central por trás da IDA é alocar mais computação para um modelo gerar soluções aprimoradas, em seguida, destilar o processo de raciocínio melhorado nos próprios parâmetros do modelo — criando efetivamente um feedback loop para o crescimento das capacidades. Arora compara essa abordagem à estratégia de auto-jogo do Google AlphaGo, aplicada à linguagem natural.
Referências e avaliações
A empresa compartilhou um amplo conjunto de resultados de avaliação comparando os modelos Cogito com concorrentes de código aberto em conhecimento geral, raciocínio matemático e tarefas multilíngues. Os destaques incluem:
- Cogito 3B (Padrão) supera LLaMA 3.2 3B no MMLU por 6,7 pontos percentuais (65,4% vs. 58,7%), e no Hellaswag por 18,8 pontos (81,1% vs. 62,3%).
- Em modo de raciocínio, Cogito 3B marca 72,6% no MMLU e 84,2% no ARC, superando seu próprio desempenho em modo padrão, mostrando o efeito da auto-reflexão baseada em IDA.
- Cogito 8B (Padrão) pontua 80,5% no MMLU, ultrapassando LLaMA 3.1 8B por 12,8 pontos. Também lidera por mais de 11 pontos no MMLU-Pro e atinge 88,7% no ARC.
- No modo de raciocínio, Cogito 8B alcança 83,1% no MMLU e 92,0% no ARC. Ele supera DeepSeek R1 Distill 8B em quase todas as categorias, exceto na referência MATH, onde o Cogito pontua significativamente mais baixo (60,2% vs. 80,6%).
- Os modelos Cogito 14B e 32B superam os equivalentes Qwen2.5 em cerca de 2-3 pontos percentuais em referências agregadas, com Cogito 32B (Raciocínio) atingindo 90,2% no MMLU e 91,8% na referência MATH.
- Cogito 70B (Padrão) supera LLaMA 3.3 70B no MMLU por 6,4 pontos (91,7% vs. 85,3%) e ultrapassa LLaMA 4 Scout 109B em pontuações de referência agregadas (54,5% vs. 53,3%).
- Em comparação com DeepSeek R1 Distill 70B, Cogito 70B (Raciocínio) apresenta resultados melhores em referências gerais e multilíngues, com uma pontuação notável de 91,0% no MMLU e 92,7% no MGSM.
Em geral, os modelos Cogito mostram seu melhor desempenho em modo de raciocínio, embora alguns trade-offs apareçam — particularmente em matemática.
Por exemplo, enquanto Cogito 70B (Padrão) empata ou supera os concorrentes em MATH e GSM8K, Cogito 70B (Raciocínio) fica atrás do DeepSeek R1 em MATH por mais de cinco pontos percentuais (83,3% vs. 89,0%).
Além das referências gerais, a Deep Cogito avaliou seus modelos no desempenho nativo de chamadas de ferramentas — uma prioridade crescente para agentes e sistemas integrados com API.
- Cogito 3B suporta quatro tarefas de chamadas de ferramentas nativamente (simples, paralelas, múltiplas e paralela-múltipla), enquanto LLaMA 3.2 3B não suporta chamadas de ferramentas.
- Cogito 3B marca 92,8% em chamadas de ferramentas simples e mais de 91% em chamadas de múltiplas ferramentas.
- Cogito 8B alcança mais de 89% em todos os tipos de chamadas de ferramentas, superando significativamente LLaMA 3.1 8B, que varia entre 35% e 54%.
Essas melhorias são atribuídas não apenas à arquitetura do modelo e dados de treinamento, mas também ao treinamento pós-específico para tarefas, que muitos modelos de base atualmente não possuem.
Olhando para o futuro
A Deep Cogito planeja lançar modelos em maior escala nos próximos meses, incluindo variantes de mistura de especialistas com 109B, 400B e 671B de parâmetros. A empresa também continuará atualizando seus checkpoints de modelos atuais com treinamento estendido.
A empresa posiciona sua metodologia IDA como um caminho a longo prazo para auto-aprimoramento escalável, removendo a dependência de modelos de professores humanos ou estáticos.
Arora enfatiza que, embora referências de desempenho sejam importantes, a utilidade e adaptabilidade no mundo real são os verdadeiros testes para esses modelos — e que a empresa está apenas no começo do que acredita ser uma curva de escala acentuada.
As parcerias de pesquisa e infraestrutura da Deep Cogito incluem equipes da Hugging Face, RunPod, Fireworks AI, Together AI e Ollama. Todos os modelos lançados são de código aberto e já estão disponíveis.
Insights diários sobre casos de uso empresarial com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo coberto. Nós lhe damos a scoop sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Pesquisador de IA renomado lança startup polêmica para substituir todos os trabalhadores humanos em todos os lugares
[the_ad id="145565"] De vez em quando, uma startup do Vale do Silício lança uma missão tão “absurdamente” descrita que é difícil discernir se a startup é real ou apenas uma…
ChatGPT se refere a usuários pelo nome sem solicitação, e alguns acham isso ‘estranho’
[the_ad id="145565"] Alguns usuários do ChatGPT notaram um fenômeno estranho recentemente: O chatbot ocasionalmente se refere a eles pelo nome enquanto raciocina sobre…
De ‘acompanhar’ a ‘nos acompanhar’: Como o Google silenciosamente assumiu a liderança em IA empresarial.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba Mais Há…