Bolt42

Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais


Black Forest Labs (BFL), a startup fundada pelos criadores do popular modelo Stable Diffusion, lançou um novo modelo de geração de imagens chamado FLUX.1 Kontext. Este modelo não apenas gera e edita fotos, mas também permite que os usuários as modifiquem com texto e outras imagens.

A empresa também anunciou seu novo BFL Playground, onde as pessoas podem experimentar os modelos da BFL antes de aplicá-los em aplicações empresariais.

A BFL lançou duas versões do modelo: FLUX.1 Kontext [pro] e FLUX.1 Kontext [max]. Uma terceira versão, FLUX.1 Kontext [dev], estará disponível em beta privado. Tanto as versões Pro quanto Max já estão disponíveis em plataformas como KreaAI, Freepik, Lightricks, OpenArt e LeonardoAI. Esses modelos permitem que equipes criativas de empresas e outros desenvolvedores editem imagens com precisão e mais rapidamente.

FLUX.1 Kontext pode realizar geração em contexto. Isso significa que o modelo pode ser gerado a partir de uma referência ou situação apresentada a ele; ele não gera a partir do zero.

A empresa afirmou em um post no X que quatro fatores tornam Kontext “especial”:

  • Consistência de personagens e preservação de elementos entre cenas
  • Edição local que “foca em partes específicas sem afetar o resto”
  • Referência de estilo que gera cenas em estilos existentes, e
  • Latência mínima

Os desenvolvedores podem testar casos de uso e brincar com os modelos no BFL Playground antes de acessar a API completa da BFL.

Os modelos pro e max

As empresas podem usar a versão pro para edições rápidas e iterativas. Os usuários podem inserir tanto texto quanto imagens de referência e fazer edições locais. A empresa informou que o Kontext [pro] opera “até uma ordem de magnitude mais rápido do que os modelos anteriores de estado da arte” e é um dos primeiros modelos que permite edição em múltiplas turnos.

Por outro lado, o FLUX.1 Kontext [max] é a versão mais rápida com desempenho máximo. A empresa afirmou que ele adere mais aos prompts, torna a tipografia legível e é consistente nas edições sem comprometer a velocidade.

Claro, muitos outros modelos de geração de imagens também podem gerar fotos a partir de arquivos enviados. O editor de imagens AI da MidJourney pode usar uma imagem de referência e então editar regiões específicas dela. O mesmo acontece com o Firefly da Adobe, que muitas pessoas que usam as populares plataformas de imagem e vídeo da Adobe têm acesso.

FLUX.1 Kontext [dev], a terceira versão da família de modelos Kontext, é um modelo de peso aberto com 12 bilhões de parâmetros.

Fluxo gerativo

A BFL declarou que o FLUX.1 Kontext é um modelo de fluxo, o que lhe confere mais flexibilidade para realizar as tarefas mencionadas acima.

Modelos de fluxo aprendem a partir de um fluxo contínuo de dados e definem um caminho entre dados ruidosos e informações úteis. Isso difere da difusão, a arquitetura de modelo que dá suporte a muitos modelos de geração de imagens e vídeos da Stability AI, MidJourney e até mesmo Sora da OpenAI, que “retiram o ruído” dos dados.

A BFL afirmou em um post no blog que os modelos Kontext representam um avanço para os modelos de fluxo.

“Os modelos FLUX.1 Kontext vão além do texto-para-imagem,” afirmou a empresa. “Diferente dos modelos de fluxo anteriores que apenas permitiam geração puramente baseada em texto, os modelos FLUX.1 Kontext também entendem e podem criar a partir de imagens existentes. Com o FLUX.1 Kontext você pode modificar uma imagem de entrada via instruções simples em texto, permitindo edição de imagens flexível e instantânea – sem necessidade de ajuste fino ou fluxos de trabalho complexos.”

Nos testes de benchmark texto-para-imagem, a BFL alegou que os modelos FLUX.1 Kontext podem competir com outros modelos em termos de estética, seguir prompts, realismo e tipografia.

Gerando interesse

A BFL lançou o modelo texto-para-imagem Flux 1.1 Pro em outubro do ano passado. Ele também incluiu uma API para que desenvolvedores de terceiros a integrem em seus aplicativos.

Graças ao BFL Playground, alguns usuários já começaram a brincar com os modelos Kontext e relatam estar impressionados.

Claro, ainda precisa competir com outros modelos de imagem disponíveis, especialmente aqueles que estão no mercado há alguns anos e continuam a melhorar.





    5 × 5 =




    Bolt42