Bolt42

As empresas chinesas continuam a lançar modelos de IA que rivalizam com as capacidades de sistemas desenvolvidos pela OpenAI e outras empresas de IA dos EUA.

Nesta semana, MiniMax, uma startup apoiada pela Alibaba e pela Tencent que arrecadou cerca de $850 milhões em capital de risco e está avaliada em mais de $2,5 bilhões, estreou três novos modelos: MiniMax-Text-01, MiniMax-VL-01 e T2A-01-HD. O MiniMax-Text-01 é um modelo apenas de texto, enquanto o MiniMax-VL-01 pode entender tanto imagens quanto texto. O T2A-01-HD, por sua vez, gera áudio — especificamente fala.

A MiniMax afirma que o MiniMax-Text-01, que possui 456 bilhões de parâmetros, tem um desempenho melhor do que modelos como o recém-lançado Gemini 2.0 Flash do Google em benchmarks como MMLU e SimpleQA, que medem a capacidade de um modelo de responder a problemas matemáticos e perguntas baseadas em fatos. Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.

Quanto ao MiniMax-VL-01, a MiniMax diz que ele rivaliza com o Claude 3.5 Sonnet da Anthropic em avaliações que requerem compreensão multimodal, como o ChartQA, que desafia modelos a responder perguntas relacionadas a gráficos e diagramas (por exemplo, “Qual é o valor máximo da linha laranja neste gráfico?”). Vale ressaltar que o MiniMax-VL-01 não supera o Gemini 2.0 Flash em muitos desses testes. O GPT-4o da OpenAI e um modelo aberto chamado InternVL2.5 também o superaram em várias dessas avaliações.

Notavelmente, o MiniMax-Text-01 possui uma janela de contexto extremamente grande. A janela de contexto de um modelo refere-se à entrada (por exemplo, texto) que um modelo considera antes de gerar a saída (texto adicional). Com uma janela de contexto de 4 milhões de tokens, o MiniMax-Text-01 pode analisar cerca de 3 milhões de palavras de uma vez — ou pouco mais de cinco cópias de “Guerra e Paz”.

Para contextualizar (sem trocadilho), a janela de contexto do MiniMax-Text-01 é aproximadamente 31 vezes maior do que a do GPT-4o e a do Llama 3.1.

O último dos modelos da MiniMax lançados esta semana, o T2A-01-HD, é um gerador de áudio otimizado para fala. O T2A-01-HD pode gerar uma voz sintética com cadência, tom e tenor ajustáveis em cerca de 17 idiomas diferentes, incluindo inglês e chinês, e clonar uma voz a partir de apenas 10 segundos de uma gravação de áudio.

A MiniMax não publicou resultados de benchmarks comparando o T2A-01-HD a outros modelos geradores de áudio. Mas, para o ouvido deste repórter, as saídas do T2A-01-HD soam comparáveis às de modelos de áudio da Meta e startups como a PlayAI.

Com exceção do T2A-01-HD, que está disponível exclusivamente através da API da MiniMax e da plataforma Hailuo AI, os novos modelos da MiniMax podem ser baixados do GitHub e da plataforma de desenvolvimento de IA Hugging Face.

Só porque os modelos estão “abertamente” disponíveis não significa que não estejam restritos em certos aspectos. O MiniMax-Text-01 e o MiniMax-VL-01 não são verdadeiramente de código aberto no sentido de que a MiniMax não liberou os componentes (por exemplo, dados de treinamento) necessários para recriá-los do zero. Além disso, eles estão sob a licença restritiva da MiniMax, que proíbe os desenvolvedores de usar os modelos para aprimorar modelos de IA rivais e exige que plataformas com mais de 100 milhões de usuários ativos mensais solicitem uma licença especial à MiniMax.

A MiniMax foi fundada em 2021 por ex-funcionários da SenseTime, uma das maiores empresas de IA da China. Os projetos da empresa incluem aplicativos como o Talkie, uma plataforma de RPG alimentada por IA, semelhante ao Character AI, e modelos de texto para vídeo que a MiniMax lançou no Hailuo.

Alguns dos produtos da MiniMax tornaram-se alvo de pequenas controvérsias.

O Talkie, que foi retirado da App Store da Apple em dezembro por motivos “técnicos” não especificados, apresenta avatares de IA de figuras públicas, incluindo Donald Trump, Taylor Swift, Elon Musk e LeBron James, nenhum dos quais parece ter consentido ser apresentado no aplicativo.

Em dezembro, a revista Broadcast reportou que os geradores de vídeo da MiniMax podem reproduzir os logotipos de canais de televisão britânicos, sugerindo que os modelos da MiniMax foram treinados com conteúdo desses canais. E a MiniMax está supostamente sendo processada pela iQiyi, um serviço de streaming de vídeo chinês que alega que a MiniMax treinou ilicitamente em gravações protegidas por direitos autorais da iQiyi.

Os novos modelos da MiniMax chegam poucos dias após a administração Biden, que está de saída, ter proposto regras de exportação e restrições mais severas sobre tecnologias de IA para iniciativas chinesas. As empresas na China já estavam impedidas de comprar chips avançados de IA, mas se as novas regras entrarem em vigor como estão redigidas, as empresas enfrentarão limites mais rígidos tanto na tecnologia de semicondutores quanto nos modelos necessários para iniciar sistemas de IA sofisticados.

Na quarta-feira, a administração Biden anunciou medidas adicionais focadas em impedir a entrada de chips sofisticados na China. Fábricas de chips e empresas de embalagem que desejam exportar determinados chips estarão sujeitas a requisitos de licença mais amplos, a menos que exerçam maior escrutínio e diligência para evitar que seus produtos cheguem a clientes chineses.


    20 + sete =

    Bolt42