A Amazon anuncia a Nova, uma nova família de modelos de IA multimodal.

Na sua conferência re:Invent, realizada na terça-feira, a Amazon Web Services (AWS), a divisão de computação em nuvem da Amazon, anunciou uma nova família de modelos de IA generativa multimodal chamada Nova.

No total, há quatro modelos de geração de texto: Micro, Lite, Pro e Premier. Micro, Lite e Pro estão disponíveis a partir de terça-feira para os clientes da AWS, enquanto o Premier chegará no início de 2025, disse o CEO da Amazon, Andy Jassy, no palco.

Além desses, há um modelo de geração de imagens, Nova Canvas, e um modelo de geração de vídeo, Nova Reel. Ambos também foram lançados na AWS nesta manhã.

“Continuamos a trabalhar em nossos próprios modelos de fronteira,” disse Jassy, “e esses modelos de fronteira tiveram um progresso tremendo nos últimos quatro a cinco meses. E pensamos que, se estamos encontrando valor neles, vocês provavelmente também encontrarão valor.”

Micro, Lite, Pro e Premier

Os modelos de texto generativos Nova, que são otimizados para 15 idiomas (mas principalmente em inglês), têm tamanhos e capacidades amplamente variados.

O Micro só pode receber texto e produzir texto, mas oferece a menor latência do grupo — processando texto e gerando respostas de forma mais rápida.

O Lite pode processar entradas de imagem, vídeo e texto de forma razoavelmente rápida. O Pro oferece uma combinação equilibrada de precisão, velocidade e custo para uma variedade de tarefas. E o Premier é o mais capaz, projetado para cargas de trabalho complexas.

O Pro e o Premier, assim como o Lite, podem analisar texto, imagens e vídeo. Todos os três são bem adequados para tarefas como digerir documentos e resumir gráficos, reuniões e diagramas. No entanto, a AWS está posicionando o Premier mais como um modelo “professor” para criar modelos personalizados ajustados, e não um modelo a ser usado isoladamente.

O Micro possui uma janela de contexto de 128.000 tokens, o que significa que pode processar até cerca de 100.000 palavras. O Lite e o Pro têm janelas de contexto de 300.000 tokens, que correspondem a cerca de 225.000 palavras, 15.000 linhas de código de computador ou 30 minutos de filmagem.

No início de 2025, as janelas de contexto de certos modelos Nova serão expandidas para suportar mais de 2 milhões de tokens, segundo a AWS.

Jassy afirma que os modelos Nova estão entre os mais rápidos em sua classe — e entre os menos caros para operar. Eles estão disponíveis no AWS Bedrock, a plataforma de desenvolvimento de IA da Amazon, onde podem ser ajustados em texto, imagens e vídeo e destilados para melhorar a velocidade e a eficiência.

“Otimizar esses modelos para trabalhar com sistemas e APIs proprietários facilita muito a realização de múltiplos passos automáticos orquestrados — comportamento de agente — com esses modelos,” acrescentou Jassy. “Então, acho que são muito atraentes.”

Canvas e Reel

Canvas e Reel são a defesa mais forte da AWS até agora para mídia generativa.

O Canvas permite que os usuários gerem e editem imagens usando comandos (por exemplo, para remover fundos) e fornece controles para os esquemas de cor e layouts das imagens geradas. O Reel, o mais ambicioso dos dois modelos, cria vídeos de até seis segundos de duração a partir de comandos ou, opcionalmente, imagens de referência. Com o Reel, os usuários podem ajustar o movimento da câmera para gerar vídeos com panorâmicas, rotações de 360 graus e zoom.

Atualmente, o Reel é limitado a vídeos de seis segundos (que levam cerca de três minutos para gerar), mas uma versão que pode criar vídeos de dois minutos está “chegando em breve,” de acordo com a AWS.

Aqui está um exemplo:

AWS Nova Reel — **Créditos da imagem:**AWS

E outro:

E aqui estão imagens do Canvas:

AWS Nova Canvas — O Canvas pode gerar imagens em uma variedade de estilos, segundo a AWS, e estender imagens existentes ou inserir objetos em cenas. **Créditos da imagem:**AWS

Jassy enfatizou que tanto o Canvas quanto o Reel possuem controles “embutidos” para uso responsável, incluindo marca d’água e moderação de conteúdo. “[Estamos tentando] limitar a geração de conteúdo prejudicial,” disse ele.

A AWS ampliou as salvaguardas em um postagem no blog, afirmando que a Nova “estende [suas] medidas de segurança para combater a disseminação de desinformação, material de abuso sexual infantil, e riscos químicos, biológicos, radiológicos ou nucleares.” No entanto, não está claro o que isso significa na prática — ou quais formas essas medidas assumem.

A AWS também continua a permanecer vaga sobre quais dados, exatamente, utiliza para treinar todos os seus modelos generativos. A empresa anteriormente disse à TechCrunch apenas que é uma combinação de dados proprietários e licenciados.

Poucos fornecedores revelam voluntariamente tais informações. Eles veem dados de treinamento como uma vantagem competitiva e, assim, mantêm isso — e as informações relacionadas — um segredo bem guardado. Detalhes sobre dados de treinamento também são uma potencial fonte de processos judiciais relacionados à propriedade intelectual, outro desincentivo a revelar muito.

Na falta de transparência, a AWS oferece uma política de indenização que cobre os clientes no caso de um de seus modelos reproduzir (ou seja, expelir uma cópia espelhada de) um estalo potencialmente protegido por direitos autorais.

Então, o que vem a seguir para a Nova? Jassy diz que a AWS está trabalhando em um modelo de fala-para-fala — um modelo que receberá fala e produzirá uma versão transformada dela — para o primeiro trimestre de 2025, e um modelo “qualquer-para-qualquer” para meados de 2025.

AWS re:Invent 2024 Nova — **Créditos da imagem:**Frederic Lardinois/TechCrunch

O modelo de fala-para-fala também será capaz de interpretar sinais verbais e não verbais, como tom e cadência, e entregar vozes naturais e “semelhantes a humanas,” segundo a Amazon. Quanto ao modelo qualquer-para-qualquer, ele teoricamente alimentará aplicações que vão desde tradutores a editores de conteúdo e assistentes de IA.

Isso supondo que não enfrente quaisquer contratempos, é claro.

“Você poderá inserir texto, fala, imagens ou vídeo e produzir texto, fala, imagens ou vídeo,” disse Jassy sobre o modelo qualquer-para-qualquer. “Este é o futuro de como os modelos de fronteira serão construídos e consumidos.”