Bolt42

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais


Modelos de raciocínio de IA — aqueles que produzem “cadeias de pensamento” em texto e refletem sobre suas próprias análises para tentar detectar erros durante o processo antes de fornecer uma resposta a um usuário — estão em alta agora, graças a nomes como DeepSeek e a série “o” da OpenAI.

Apesar disso, é incrível para mim a rapidez com que a abordagem do modelo de raciocínio se espalhou pela indústria de IA, com o anúncio desta semana de que há mais um novo modelo para experimentar, este vindo do coletivo misterioso e louvavelmente ético Nous Research, cuja missão desde seu lançamento na cidade de Nova York em 2023 tem sido criar modelos de IA “personalizados e irrestritos” — muitas vezes pegando e ajustando ou re-treinando modelos de código aberto, como a série Llama da Meta e aqueles da startup francesa Mistral.

Como postado na conta Nous Research no X e no canal Discord da empresa, este novo modelo de raciocínio aberto é chamado de “DeepHermes-3 Preview” e é descrito como um “LLM [modelo de linguagem grande] que unifica as capacidades de raciocínio e linguagem intuitiva,” com a possibilidade de o usuário alternar quando desejar entre processos de raciocínio mais longos e respostas mais curtas e rápidas, que exigem menos recursos computacionais.

É uma variante de 8 bilhões de parâmetros (contagem de configurações) do Hermes 3, que por sua vez é uma variante do Llama da Meta lançado pela Nous em agosto de 2024, com trocas de amostra mostrando que poderia entrar em exibições de metacognição, pensando sobre si mesmo e o papel da IA em comparação com a consciência humana, desencadeando algo que se aproxima de uma crise existencial nas saídas do modelo.

Os usuários podem baixar o código completo do modelo no HuggingFace e uma versão que foi quantizada (contagem de bits reduzida) e salva no Formato Unificado Gerado pelo GPT (GGUF), que é projetado para executar inferências de modelo (a construção real de produção, em oposição ao treinamento) em PCs e servidores de nível de consumo.

A conta da Nous escreveu hoje que seus pesquisadores “esperam que nossa abordagem única ao modo de raciocínio controlado pelo usuário, alternável, promova nossa missão de dar àqueles que usam o DeepHermes mais direcionamento para qualquer necessidade que tenham.”

Construindo sobre o Hermes 3: A Abordagem de Dados e Treinamento

DeepHermes-3 se baseia no conjunto de dados do Hermes 3, um conjunto de dados meticulosamente elaborado que a Nous Research desenvolveu para a série mais ampla Hermes 3.

De acordo com o Relatório Técnico do Hermes 3 divulgado em agosto, esse conjunto de dados é composto por aproximadamente 390 milhões de tokens abrangendo diversos domínios instrucionais e baseados em raciocínio.

O conjunto de dados é dividido nas seguintes categorias principais:

Instruções Gerais (60,6%) – Prompts amplos e abertos, semelhantes aos encontrados em modelos de chat de IA de propósito geral.

Dados de Especialistas de Domínio (12,8%) – Conhecimento especializado em áreas como ciência, direito e engenharia.

Matemática (6,7%) – Conjuntos de dados de resolução de problemas avançados visando aprimorar o raciocínio numérico e lógico.

Interpretação de Papéis e Escrita Criativa (6,1%) – Dados projetados para aprimorar a narrativa e o diálogo simulado.

Programação e Desenvolvimento de Software (4,5%) – Tarefas de geração e depuração de código.

Uso de Ferramentas, Raciocínio Agente e Geração Aumentada por Recuperação (RAG) (4,3%) – Treinamento sobre chamada de funções, planejamento e recuperação de conhecimento.

Geração de Conteúdo (3,0%) – Escrita, resumo e tarefas de saída estruturada.

Direcionamento e Alinhamento (2,5%) – Dados focados em tornar o modelo altamente direcionável e responsivo aos prompts do usuário.

Além disso, o membro da equipe pseudônimo da Nous Research, @Teknium (@Teknium1 no X), escreveu em resposta a um usuário no servidor Discord da empresa que o modelo foi treinado com “1m não cots e 150k cots”, ou seja, 1 milhão de saídas não baseadas em cadeias de pensamento e 150.000 saídas baseadas em cadeias de pensamento.

Essa mistura de dados apóia a capacidade única do DeepHermes-3 de alternar entre respostas intuitivas e raciocínio profundo e estruturado, uma característica chave que o distingue de outros LLMs.

Como Funciona o Modo de Raciocínio Alternável

DeepHermes-3 permite que os usuários controlem a profundidade do raciocínio usando um prompt de sistema. O usuário deve inserir o seguinte texto antes de um prompt para “ativar” o modo de raciocínio do modelo:

Você é uma IA pensadora profunda, pode usar cadeias de pensamento extremamente longas para considerar profundamente o problema e deliberar consigo mesmo por meio de processos de raciocínio sistemático para ajudar a chegar a uma solução correta antes de responder. Você deve enclausurar seus pensamentos e monólogo interno dentro de tags, e em seguida fornecer sua solução ou resposta ao problema.

Quando o modo de raciocínio está ativado, o modelo processa informações em longas cadeias de pensamento, permitindo que ele delibere sistematicamente antes de gerar uma resposta.

Isso é alcançado usando as tags , onde o monólogo interno do modelo é estruturado antes de apresentar uma solução final.

No modo de resposta padrão, o modelo opera mais como um chatbot de IA tradicional, fornecendo respostas mais rápidas, baseadas na intuição, sem processamento lógico profundo.

Insights de Desempenho e Feedback da Comunidade

Benchmarks iniciais e testes da comunidade forneceram insights-chave sobre as capacidades do DeepHermes-3:

Raciocínio Matemático: DeepHermes-3 pontua 67% nos benchmarks MATH, em comparação a 89,1% do modelo destilado R1 da DeepSeek. Embora a DeepSeek o supere em tarefas matemáticas puras, a Nous Research posiciona o DeepHermes-3 como um modelo mais generalista, com habilidades conversacionais e de raciocínio mais amplas.

Conversas de Múltiplas Rodadas: Alguns testadores relatam que o modo de raciocínio é ativado corretamente na primeira resposta, mas pode falhar em persistir em conversas prolongadas. Membros da comunidade sugerem reforçar \n no início de cada resposta, um método também utilizado no DeepSeek-R1.

Chamada de Funções: DeepHermes-3 suporta o uso de ferramentas, embora não tenha sido explicitamente treinado para integrar o modo de raciocínio e a chamada de função simultaneamente. Alguns usuários relatam que, embora a combinação de ambas as funcionalidades melhore a precisão na execução de ferramentas, os resultados permanecem inconsistentes.

A Nous Research está ativamente coletando feedback dos usuários para refinar a persistência do raciocínio e melhorar as interações de múltiplas rodadas.

Implantação e Desempenho de Hardware

DeepHermes-3 está disponível para testes no Hugging Face, com versões quantizadas em GGUF otimizadas para hardware de baixo consumo. O modelo é compatível com vLLM para inferência e usa o formato Llama-Chat para diálogos de múltiplas rodadas.

Um usuário relatou uma velocidade de processamento de 28,98 tokens por segundo em um MacBook Pro M4 Max, demonstrando que o modelo pode rodar de maneira eficiente em hardware de consumo.

DeepHermes-3 é baseado no modelo Llama 3 da Meta e é regido pela Licença da Comunidade Llama 3 da Meta. Embora o modelo esteja disponível gratuitamente para uso, modificação e redistribuição, certas condições se aplicam:

Redistribuição: Quaisquer modelos derivados ou implantações devem incluir a licença original e exibir em destaque “Construído com o Meta Llama 3.”

Restrições no Treinamento do Modelo: Os usuários não podem utilizar o DeepHermes-3 (ou Llama 3) para treinar outros modelos de linguagem grande, exceto para trabalhos derivados explicitamente baseados no Llama 3.

Licenciamento Comercial para Grandes Empresas: Organizações com mais de 700 milhões de usuários ativos mensais devem obter aprovação explícita da Meta antes de usar o modelo comercialmente.

• Política de Uso Aceitável: Os usuários devem cumprir as restrições de uso de IA da Meta, que proíbem aplicações em áreas como desinformação, vigilância e geração de conteúdo prejudicial.

Essas regras de redistribuição e limitações comerciais significam que o DeepHermes-3 não é totalmente de código aberto no sentido tradicional, apesar de sua disponibilidade no Hugging Face, ao contrário do modelo de raciocínio R1 de sucesso do rival chinês DeepSeek, que está disponível sob uma Licença MIT permissiva.

Olhando para o Futuro: Hermes 4

DeepHermes-3 foi desenvolvido por @teknium, @emozilla, @Gifted Gummy Bee, @hjc-puro e @jsupha, com a Nous Research creditando à comunidade de código aberto por contribuições em conjuntos de dados, ferramentas de avaliação e treinamento de modelos.

A Nous Research vê este modelo de pré-visualização como um trampolim em direção ao próximo grande lançamento, Hermes 4, que deve refinar ainda mais suas habilidades de raciocínio e conversação.





    16 − 11 =




    Bolt42