Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba mais
Midjourney é mais conhecida como uma das principais geradoras de imagens por IA — com quase 20 milhões de usuários em seu canal do Discord, de acordo com rastreadores de terceiros, e presumivelmente mais que isso em seu site — mas suas ambições estão começando a se expandir.
Ao seguir as notícias do final do verão de 2024, de que estava construindo seu próprio hardware de computação e IA, a empresa lançou esta semana um novo artigo de pesquisa em conjunto com especialistas em aprendizado de máquina da Universidade de Nova York (NYU) sobre o treinamento de modelos de linguagem de grande escala (LLMs) baseados em texto, como os modelos de código aberto Llama da Meta e os modelos epônimos da Mistral, para escrever de forma mais criativa.
A colaboração, documentada em um novo artigo de pesquisa publicado na comunidade de código de IA Hugging Face, introduz duas novas técnicas — Diversified Direct Preference Optimization (DDPO) e Diversified Odds Ratio Preference Optimization (DORPO) — projetadas para expandir a gama de possíveis saídas, mantendo coerência e legibilidade.
Para uma empresa mais conhecida por seus modelos de geração de imagens por difusão com IA, a nova abordagem da Midjourney para repensar a criatividade em LLMs baseados em texto mostra que não está limitando suas ambições às imagens; uma imagem pode não valer realmente mil palavras.
Um LLM nativo da Midjourney ou uma versão ajustada de um LLM existente pode estar a caminho dessa pequena startup auto-financiada? Entrei em contato com o fundador da Midjourney, David Holz, mas ainda não obtive resposta.
Independentemente de uma oferta LLM própria da Midjourney, as implicações de sua nova pesquisa vão além de exercícios acadêmicos e podem ser usadas para ajudar a impulsionar uma nova onda de treinamento de LLM entre equipes de AI empresarial, desenvolvedores de produtos e criadores de conteúdo que buscam melhorar o texto gerado pela IA.
Isso também mostra que, apesar do recente interesse e investimento entre os provedores de modelos de IA em novos modelos de linguagem multimodal e de raciocínio, ainda há muito a ser explorado, cognitivamente e em termos de desempenho, em LLMs clássicos baseados em transformadores e focados em texto.
O problema: a escrita gerada por IA colapsa em saídas homogêneas
Em domínios como perguntas e respostas baseadas em fatos ou assistência de codificação, espera-se que os LLMs gerem uma única melhor resposta.
No entanto, a escrita criativa é inerentemente aberta, o que significa que há muitas respostas válidas para um único prompt.
Para um exemplo fornecido pelos pesquisadores da Midjourney, dado um prompt como “Escreva uma história sobre um cachorro na lua”, o LLM poderia explorar vários caminhos diversos, como:
- Um cão de estimação de um astronauta acidentalmente deixado para trás após uma missão lunar.
- Um cachorro que se encontra em uma colônia espacial canina futurística.
- Um cachorro preso que faz amizade com uma espécie alienígena.
Apesar dessa gama de possibilidades, LLMs ajustados por instruções frequentemente convergem em enredos e temas similares. Isso acontece porque:
- Técnicas pós-treinamento priorizam a preferência do usuário em detrimento da originalidade, reforçando respostas populares, mas repetitivas.
- O ajuste por instrução muitas vezes suaviza a variação, fazendo com que os modelos favoreçam respostas “seguras” em vez de únicas.
- Técnicas existentes para promover diversidade (como ajuste de temperatura) operam apenas no tempo de inferência, em vez de serem embutidas no processo de aprendizado do modelo.
Isso leva a narrativas homogeneizadas, onde a escrita criativa gerada por IA parece repetitiva e carece de surpresa ou profundidade.
A solução: modificar métodos pós-treinamento para priorizar diversidade
Para superar essas limitações, os pesquisadores introduziram DDPO e DORPO, duas extensões de métodos de otimização de preferência existentes. A inovação central nessas abordagens é o uso de desvio — uma medida de quão diferente uma resposta é em relação às outras — para orientar o treinamento.
Veja como funciona:
- Durante o treinamento, o modelo recebe um prompt de escrita e várias possíveis respostas.
- Cada resposta é comparada com as outras para o mesmo prompt, e uma pontuação de desvio é calculada.
- Respostas raras, mas de alta qualidade, são pesadas mais fortemente no treinamento, incentivando o modelo a aprender com exemplos diversos.
Ao incorporar o desvio na Otimização Direta de Preferência (DPO) e na Otimização do Índice de Preferência (ORPO), o modelo aprende a produzir respostas de alta qualidade, mas mais variadas.
Esse método garante que as histórias geradas pela IA não converjam em uma única estrutura previsível, mas explorem uma gama mais ampla de personagens, cenários e temas — assim como um escritor humano faria.
O que os pesquisadores da Midjourney fizeram para alcançar isso
O estudo envolveu o treinamento de LLMs em tarefas de escrita criativa usando um conjunto de dados da subreddit r/writingPrompts, uma comunidade do Reddit onde os usuários postam prompts e respondem com histórias curtas.
Os pesquisadores utilizaram dois modelos base para seu treinamento:
- Llama-3.1-8B (um modelo de 8 bilhões de parâmetros da série Llama 3).
- Mistral-7B-v0.3 (um modelo de 7 bilhões de parâmetros da Mistral AI).
Em seguida, eles levaram esses modelos através dos seguintes processos:
- Ajuste Supervisionado (SFT): Os modelos foram inicialmente ajustados usando LoRA (Low-Rank Adaptation) para ajustar parâmetros de maneira eficiente.
- Otimização de Preferência:
- DPO e ORPO foram usados como baseline — esses métodos padrão se concentram em melhorar a qualidade da resposta com base em sinais de preferência do usuário.
- DDPO e DORPO foram então aplicados, introduzindo ponderação baseada em desvio para incentivar respostas mais únicas.
- Avaliação:
- Avaliação automática: Mediu diversidade semântica e estilística usando técnicas baseadas em embedding.
- Avaliação humana: Juízes avaliaram se as saídas eram diversas e envolventes em comparação com o GPT-4o e Claude 3.5.
Principais Descobertas do Treinamento:
- DDPO superou significativamente o DPO padrão em termos de diversidade de saída, mantendo a qualidade.
- Llama-3.1-8B com DDPO alcançou o melhor equilíbrio de qualidade e diversidade, produzindo respostas que eram mais variadas do que GPT-4o enquanto mantinham coerência.
- Quando o tamanho do conjunto de dados foi reduzido, os modelos DDPO ainda mantiveram diversidade, embora requerissem uma certa quantidade de amostras de treinamento diversas para serem totalmente eficazes.
Implicações empresariais: o que isso significa para aqueles que usam IA para produzir respostas criativas — como em redação de marketing, narrativa corporativa e redação de roteiros para filmes/TV/vídeo games?
Para equipes de IA que gerenciam a implementação de LLM, melhorar a diversidade de saída enquanto mantém a qualidade é um desafio crítico. Essas descobertas têm implicações significativas para organizações que dependem de conteúdo gerado por IA em aplicações como:
- IA conversacional e chatbots (garantindo respostas variadas e envolventes).
- Ferramentas de marketing de conteúdo e storytelling (prevenindo cópias geradas por IA repetitivas).
- Desenvolvimento de jogos e design narrativo (criando diálogos diversos e enredos ramificados).
Para profissionais responsáveis por ajustar e implantar modelos em um ambiente empresarial, esta pesquisa oferece:
- Uma nova abordagem para o pós-treinamento de LLM que melhora a criatividade sem sacrificar a qualidade.
- Uma alternativa prática ao ajuste de diversidade em tempo de inferência (como ajustes de temperatura), integrando diversidade no próprio processo de aprendizado.
- O potencial para desenvolver aplicações de IA mais envolventes, desde ferramentas de escrita assistidas por IA até assistentes virtuais que podem adaptar suas respostas dinamicamente.
Para aqueles que gerenciam orquestração e automação de modelos de IA, esta pesquisa destaca:
- A importância de ajustar modelos na fase de treinamento, reduzindo a necessidade de ajustes pós-processamento na implementação.
- Uma maneira de introduzir narrativas adaptativas em aplicações impulsionadas por IA, garantindo variabilidade enquanto mantém a qualidade do conteúdo alta.
- Um método para tornar as saídas de LLM mais semelhantes às humanas, o que é crucial para aplicações que requerem narrativa interativa, engajamento do cliente ou criação dinâmica de conteúdo.
O futuro de projetos criativos gerados por IA parece brilhante
O sucesso do DDPO e DORPO demonstra que treinar LLMs com objetivos focados na diversidade pode gerar melhorias significativas na escrita criativa. Algumas ideias incluem:
- Integrar aprendizado baseado em desvio em modelos de IA empresariais para aumentar a diversidade de respostas em aplicações voltadas para o cliente.
- Explorar como esses métodos se aplicam a outras tarefas generativas, como poesia impulsionada por IA, redação de roteiros ou storytelling em jogos.
- Desenvolver abordagens de treinamento híbridas que equilibrem diversidade e capacidades de seguir instruções para assistentes de IA.
Para aqueles interessados em aplicar essas técnicas, os pesquisadores planejam tornar seu código disponível publicamente neste repositório do GitHub.
Seja você ajustando LLMs para aplicações comerciais ou otimizando a orquestração de IA em larga escala, este estudo fornece insights acionáveis sobre como os modelos podem ser mais dinâmicos, envolventes e responsivos a tarefas criativas.
Ao adotar essas técnicas, as equipes de IA podem ir além de saídas rígidas e formulaicas — construindo sistemas de IA que não são apenas inteligentes, mas também verdadeiramente imaginativos.
Insights diários sobre casos de uso empresarial com VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós trazemos as informações internas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Veja mais boletins do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Copilotos de IA reduzem falsos positivos e burnout em SOCs sobrecarregados
[the_ad id="145565"] Inscreva-se em nossos boletins informativos diários e semanais para obter as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder no…
O IPO da Cerebras Systems é novamente adiado.
[the_ad id="145565"] A empresa de fabricação de chips de IA, Cerebras Systems, teve seu IPO adiado novamente, enquanto a revisão de segurança nacional do lançamento público se…
As equipes de segurança podem responder 80% mais rápido a eventos com as ferramentas de linha do tempo de dados impulsionadas pela IA da Cyberhaven.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre nossas coberturas líderes em IA. Saiba mais Os…