Bolt42

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura líder da indústria em IA. Saiba mais


A Microsoft apresentou uma nova classe de modelos de IA altamente eficientes que processam texto, imagens e fala simultaneamente, exigindo de forma significativa menos poder computacional do que os sistemas existentes. Os novos modelos Phi-4, lançados hoje, representam um avanço no desenvolvimento de modelos de linguagem pequenos (SLMs) que oferecem capacidades anteriormente reservadas para sistemas de IA muito maiores.

Phi-4-Multimodal, um modelo com apenas 5,6 bilhões de parâmetros, e Phi-4-Mini, com 3,8 bilhões de parâmetros, superam concorrentes de tamanho semelhante e até igualam ou superam o desempenho de modelos duas vezes maiores em determinadas tarefas, de acordo com o relatório técnico da Microsoft.

“Esses modelos são projetados para capacitar desenvolvedores com avançadas capacidades de IA,” disse Weizhu Chen, Vice-Presidente de IA Generativa da Microsoft. “O Phi-4-multimodal, com sua capacidade de processar fala, visão e texto simultaneamente, abre novas possibilidades para a criação de aplicativos inovadores e cientes do contexto.”

A conquista técnica ocorre em um momento em que as empresas estão cada vez mais em busca de modelos de IA que possam ser executados em hardware padrão ou na “borda” — diretamente em dispositivos, em vez de em data centers na nuvem — para reduzir custos e latência enquanto mantém a privacidade dos dados.

Como a Microsoft construiu um pequeno modelo de IA que faz tudo

O que diferencia Phi-4-Multimodal é sua técnica nova de “mistura de LoRAs”, que permite lidar com entradas de texto, imagens e fala dentro de um único modelo.

“Aproveitando a Mistura de LoRAs, o Phi-4-Multimodal estende as capacidades multimodais enquanto minimiza a interferência entre as modalidades,” afirma o artigo de pesquisa. “Essa abordagem permite uma integração perfeita e garante desempenho consistente em tarefas que envolvem texto, imagens e fala/aúdio.”

A inovação permite que o modelo mantenha suas fortes capacidades linguísticas enquanto adiciona reconhecimento de visão e fala, sem a degradação de desempenho que ocorre frequentemente quando modelos são adaptados para múltiplos tipos de entrada.

O modelo conquistou a posição de topo no classificação OpenASR da Hugging Face com uma taxa de erro de palavras de 6,14%, superando sistemas especializados de reconhecimento de fala como WhisperV3. Também demonstra desempenho competitivo em tarefas de visão, como raciocínio matemático e científico com imagens.

IA compacta, impacto massivo: Phi-4-mini estabelece novos padrões de desempenho

Apesar de seu tamanho compacto, Phi-4-Mini demonstra capacidades excepcionais em tarefas baseadas em texto. A Microsoft relata que o modelo “supera modelos de tamanho semelhante e está em pé de igualdade com modelos duas vezes maiores” em vários benchmarks de compreensão de linguagem.

Particularmente notável é o desempenho do modelo em tarefas matemáticas e de codificação. De acordo com o artigo de pesquisa, “Phi-4-Mini consiste em 32 camadas de Transformer com tamanho de estado oculto de 3.072” e incorpora atenção de consulta em grupo para otimizar o uso de memória para geração de longas contextos.

No benchmark matemático GSM-8K, Phi-4-Mini atingiu uma pontuação de 88,6%, superando a maioria dos modelos com 8 bilhões de parâmetros, enquanto no benchmark MATH alcançou 64%, substancialmente mais alto do que concorrentes de tamanho semelhante.

“Para o benchmark de Matemática, o modelo supera modelos de tamanho semelhante com amplas margens, às vezes mais de 20 pontos. Ele até supera os resultados de modelos duas vezes maiores,” observa o relatório técnico.

Implantações transformadoras: a eficiência do Phi-4 em ação no mundo real

A Capacity, um Motor de Respostas de IA que ajuda organizações a unificar conjuntos de dados diversos, já utilizou a família Phi para melhorar a eficiência e precisão de sua plataforma.

Steve Frederickson, Chefe de Produto da Capacity, disse em uma declaração, “Nos nossos experimentos iniciais, o que realmente nos impressionou sobre o Phi foi sua notável precisão e a facilidade de implantação, mesmo antes da personalização. Desde então, conseguimos aumentar tanto a precisão quanto a confiabilidade, enquanto mantínhamos a relação custo-benefício e escalabilidade que valorizamos desde o início.”

A Capacity relatou uma economia de custos de 4,2 vezes em comparação com fluxos de trabalho concorrentes, enquanto alcançava os mesmos resultados qualitativos ou melhores para tarefas de pré-processamento.

IA sem limites: os modelos Phi-4 da Microsoft trazem inteligência avançada para qualquer lugar

Durante anos, o desenvolvimento de IA foi impulsionado por uma filosofia singular: maior é melhor. Mais parâmetros, modelos maiores, maiores demandas computacionais. Mas os modelos Phi-4 da Microsoft desafiam essa suposição, provando que o poder não se resume apenas à escala — trata-se de eficiência.

Phi-4-Multimodal e Phi-4-Mini são projetados não para os data centers das gigantes da tecnologia, mas para o mundo real — onde o poder computacional é limitado, as preocupações com a privacidade são primordiais e a IA precisa funcionar perfeitamente sem uma conexão constante com a nuvem. Esses modelos são pequenos, mas têm grande impacto. O Phi-4-Multimodal integra o processamento de fala, visão e texto em um único sistema sem sacrificar a precisão, enquanto o Phi-4-Mini oferece desempenho em matemática, codificação e raciocínio equivalente a modelos duas vezes maiores.

Isso não se resume a tornar a IA mais eficiente; trata-se de torná-la mais acessível. A Microsoft posicionou o Phi-4 para adoção em larga escala, disponibilizando-o através do Azure AI Foundry, Hugging Face e do Catálogo da API da Nvidia. O objetivo é claro: IA que não esteja trancada atrás de hardware caro ou infraestrutura maciça, mas que possa operar em dispositivos padrão, na borda das redes, e em setores onde o poder computacional é escasso.

Masaya Nishimaki, um diretor da empresa japonesa de IA Headwaters Co., Ltd., vê o impacto em primeira mão. “A IA na borda demonstra desempenho excepcional mesmo em ambientes com conexões de rede instáveis ou onde a confidencialidade é primordial,” disse ele em uma declaração. Isso significa IA que pode funcionar em fábricas, hospitais, veículos autônomos — lugares onde a inteligência em tempo real é necessária, mas onde os modelos tradicionais baseados na nuvem falham.

No seu cerne, o Phi-4 representa uma mudança de pensamento. A IA não é apenas uma ferramenta para aqueles com os maiores servidores e os bolsos mais fundos. É uma capacidade que, se projetada bem, pode funcionar em qualquer lugar, para qualquer um. O mais revolucionário sobre o Phi-4 não é o que ele pode fazer — é onde ele pode fazer.





    nove + dez =




    Bolt42