Bolt42

Participe de nossas newsletters diárias e semanais para obter as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder de mercado. Saiba mais


A MiniMax é possivelmente hoje mais conhecida aqui nos EUA como a empresa de Cingapura responsável pelo Hailuo, um modelo de vídeo gerativo de alta resolução e realista que compete com o Runway, o Sora da OpenAI e a Dream Machine da Luma AI.

No entanto, a empresa tem muito mais a oferecer: hoje, por exemplo, anunciou o lançamento e a disponibilização do MiniMax-01 série, uma nova família de modelos projetados para lidar com contextos ultra-longos e aprimorar o desenvolvimento de agentes de IA.

A série inclui o MiniMax-Text-01, um modelo de linguagem de grande escopo (LLM), e o MiniMax-VL-01, um modelo visual multimodal.

Uma janela de contexto massiva

O MiniMax-Text-01 é particularmente notável por permitir até 4 milhões de tokens em sua janela de contexto — equivalente a uma pequena biblioteca de livros. A janela de contexto é a quantidade de informação que o LLM pode manipular em uma troca de entrada/saída, com palavras e conceitos representados como “tokens”, uma abstração matemática interna do LLM dos dados em que foi treinado.

E, enquanto o Google anteriormente liderava o setor com seu modelo Gemini 1.5 Pro e uma janela de contexto de 2 milhões de tokens, a MiniMax notavelmente dobrou esse número.

Conforme a MiniMax postou em sua conta oficial no X hoje: “O MiniMax-01 processa eficientemente até 4M de tokens — 20 a 32 vezes a capacidade de outros modelos líderes. Acreditamos que o MiniMax-01 está preparado para apoiar o aumento esperado nas aplicações relacionadas a agentes no próximo ano, à medida que os agentes exigem cada vez mais capacidades de manuseio de contexto estendido e memória sustentada.”

Os modelos estão disponíveis para download agora no Hugging Face e no Github sob uma licença personalizada da MiniMax, para que os usuários possam experimentar diretamente no Hailuo AI Chat (um concorrente do ChatGPT/Gemini/Claude), e através da interface de programação de aplicativos (API) da MiniMax, onde desenvolvedores de terceiros podem conectar seus próprios aplicativos únicos a eles.

A MiniMax está oferecendo APIs para processamento de texto e multimodal a tarifas competitivas:

  • US$ 0,2 por 1 milhão de tokens de entrada
  • US$ 1,1 por 1 milhão de tokens de saída

Para comparação, o GPT-4 da OpenAI custa US$ 2,50 por 1 milhão de tokens de entrada através de sua API, impressionantes 12,5 vezes mais caro.

A MiniMax também integrou uma estrutura de mistura de especialistas (MoE) com 32 especialistas para otimizar a escalabilidade. Este design equilibra eficiência computacional e de memória, mantendo um desempenho competitivo nos principais benchmarks.

Abrindo novos caminhos com a Arquitetura Lightning Attention

No coração do MiniMax-01 está um mecanismo de atenção Lightning, uma alternativa inovadora à arquitetura de transformadores.

Esse design reduz significativamente a complexidade computacional. Os modelos consistem em 456 bilhões de parâmetros, com 45,9 bilhões ativados por inferência.

Ao contrário das arquiteturas anteriores, a Atenção Lightning utiliza uma combinação de camadas lineares e tradicionais SoftMax, alcançando complexidade quase linear para entradas longas. SoftMax, para aqueles como eu que são novos nesse conceito, são as transformações de números de entrada em probabilidades que somam 1, para que o LLM possa aproximar qual o significado da entrada é o mais provável.

A MiniMax reestruturou suas estruturas de treinamento e inferência para suportar a arquitetura Lightning Attention. As melhorias principais incluem:

  • Otimização de comunicação MoE all-to-all: Reduz a sobrecarga de comunicação entre GPUs.
  • Atenção de anel Varlen: Minimiza o desperdício computacional para processamento de sequências longas.
  • Implementações de kernel eficientes: Kernels CUDA personalizados melhoram o desempenho da Atenção Lightning.

Essas inovações tornam os modelos MiniMax-01 acessíveis para aplicações do mundo real, enquanto mantêm a acessibilidade.

Desempenho e Benchmarks

Nos principais benchmarks de texto e multimodal, o MiniMax-01 rivaliza com modelos de primeira linha como o GPT-4 e o Claude-3.5, com resultados especialmente fortes em avaliações de longo contexto. Notavelmente, o MiniMax-Text-01 alcançou 100% de precisão na tarefa Needle-In-A-Haystack com uma janela de contexto de 4 milhões de tokens.

Os modelos também demonstram pouca degradação de desempenho à medida que o comprimento da entrada aumenta.

A MiniMax planeja atualizações regulares para expandir as capacidades dos modelos, incluindo melhorias de código e multimodal.

A empresa vê a disponibilização do código-fonte como um passo em direção à construção de capacidades fundamentais de IA para o cenário em evolução dos agentes de IA.

Com 2025 previsto para ser um ano transformador para agentes de IA, a necessidade de memória sustentada e comunicação interagente eficiente está aumentando. As inovações da MiniMax são projetadas para atender a esses desafios.

Aberto à colaboração

A MiniMax convida desenvolvedores e pesquisadores a explorar as capacidades do MiniMax-01. Além da disponibilização do código-fonte, sua equipe está aberta a sugestões técnicas e consultas de colaboração em model@minimaxi.com.

Com seu compromisso com uma IA escalável e com custo-benefício, a MiniMax se posiciona como um player chave na formação da era dos agentes de IA. A série MiniMax-01 oferece uma oportunidade empolgante para desenvolvedores superarem os limites do que a IA de longo contexto pode alcançar.





    nove + 10 =




    Bolt42