Os novos modelos de IA Phi-4 da Microsoft oferecem grande desempenho em pacotes pequenos

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura líder da indústria em IA. Saiba mais

A Microsoft apresentou uma nova classe de modelos de IA altamente eficientes que processam texto, imagens e fala simultaneamente, exigindo de forma significativa menos poder computacional do que os sistemas existentes. Os novos modelos Phi-4, lançados hoje, representam um avanço no desenvolvimento de modelos de linguagem pequenos (SLMs) que oferecem capacidades anteriormente reservadas para sistemas de IA muito maiores.

Phi-4-Multimodal, um modelo com apenas 5,6 bilhões de parâmetros, e Phi-4-Mini, com 3,8 bilhões de parâmetros, superam concorrentes de tamanho semelhante e até igualam ou superam o desempenho de modelos duas vezes maiores em determinadas tarefas, de acordo com o relatório técnico da Microsoft.

“Esses modelos são projetados para capacitar desenvolvedores com avançadas capacidades de IA,” disse Weizhu Chen, Vice-Presidente de IA Generativa da Microsoft. “O Phi-4-multimodal, com sua capacidade de processar fala, visão e texto simultaneamente, abre novas possibilidades para a criação de aplicativos inovadores e cientes do contexto.”

A conquista técnica ocorre em um momento em que as empresas estão cada vez mais em busca de modelos de IA que possam ser executados em hardware padrão ou na “borda” — diretamente em dispositivos, em vez de em data centers na nuvem — para reduzir custos e latência enquanto mantém a privacidade dos dados.

Como a Microsoft construiu um pequeno modelo de IA que faz tudo

O que diferencia Phi-4-Multimodal é sua técnica nova de “mistura de LoRAs”, que permite lidar com entradas de texto, imagens e fala dentro de um único modelo.

“Aproveitando a Mistura de LoRAs, o Phi-4-Multimodal estende as capacidades multimodais enquanto minimiza a interferência entre as modalidades,” afirma o artigo de pesquisa. “Essa abordagem permite uma integração perfeita e garante desempenho consistente em tarefas que envolvem texto, imagens e fala/aúdio.”

A inovação permite que o modelo mantenha suas fortes capacidades linguísticas enquanto adiciona reconhecimento de visão e fala, sem a degradação de desempenho que ocorre frequentemente quando modelos são adaptados para múltiplos tipos de entrada.

O modelo conquistou a posição de topo no classificação OpenASR da Hugging Face com uma taxa de erro de palavras de 6,14%, superando sistemas especializados de reconhecimento de fala como WhisperV3. Também demonstra desempenho competitivo em tarefas de visão, como raciocínio matemático e científico com imagens.

IA compacta, impacto massivo: Phi-4-mini estabelece novos padrões de desempenho

Apesar de seu tamanho compacto, Phi-4-Mini demonstra capacidades excepcionais em tarefas baseadas em texto. A Microsoft relata que o modelo “supera modelos de tamanho semelhante e está em pé de igualdade com modelos duas vezes maiores” em vários benchmarks de compreensão de linguagem.

Particularmente notável é o desempenho do modelo em tarefas matemáticas e de codificação. De acordo com o artigo de pesquisa, “Phi-4-Mini consiste em 32 camadas de Transformer com tamanho de estado oculto de 3.072” e incorpora atenção de consulta em grupo para otimizar o uso de memória para geração de longas contextos.

No benchmark matemático GSM-8K, Phi-4-Mini atingiu uma pontuação de 88,6%, superando a maioria dos modelos com 8 bilhões de parâmetros, enquanto no benchmark MATH alcançou 64%, substancialmente mais alto do que concorrentes de tamanho semelhante.

“Para o benchmark de Matemática, o modelo supera modelos de tamanho semelhante com amplas margens, às vezes mais de 20 pontos. Ele até supera os resultados de modelos duas vezes maiores,” observa o relatório técnico.

Implantações transformadoras: a eficiência do Phi-4 em ação no mundo real

A Capacity, um Motor de Respostas de IA que ajuda organizações a unificar conjuntos de dados diversos, já utilizou a família Phi para melhorar a eficiência e precisão de sua plataforma.

Steve Frederickson, Chefe de Produto da Capacity, disse em uma declaração, “Nos nossos experimentos iniciais, o que realmente nos impressionou sobre o Phi foi sua notável precisão e a facilidade de implantação, mesmo antes da personalização. Desde então, conseguimos aumentar tanto a precisão quanto a confiabilidade, enquanto mantínhamos a relação custo-benefício e escalabilidade que valorizamos desde o início.”

A Capacity relatou uma economia de custos de 4,2 vezes em comparação com fluxos de trabalho concorrentes, enquanto alcançava os mesmos resultados qualitativos ou melhores para tarefas de pré-processamento.

IA sem limites: os modelos Phi-4 da Microsoft trazem inteligência avançada para qualquer lugar

Durante anos, o desenvolvimento de IA foi impulsionado por uma filosofia singular: maior é melhor. Mais parâmetros, modelos maiores, maiores demandas computacionais. Mas os modelos Phi-4 da Microsoft desafiam essa suposição, provando que o poder não se resume apenas à escala — trata-se de eficiência.

Phi-4-Multimodal e Phi-4-Mini são projetados não para os data centers das gigantes da tecnologia, mas para o mundo real — onde o poder computacional é limitado, as preocupações com a privacidade são primordiais e a IA precisa funcionar perfeitamente sem uma conexão constante com a nuvem. Esses modelos são pequenos, mas têm grande impacto. O Phi-4-Multimodal integra o processamento de fala, visão e texto em um único sistema sem sacrificar a precisão, enquanto o Phi-4-Mini oferece desempenho em matemática, codificação e raciocínio equivalente a modelos duas vezes maiores.

Isso não se resume a tornar a IA mais eficiente; trata-se de torná-la mais acessível. A Microsoft posicionou o Phi-4 para adoção em larga escala, disponibilizando-o através do Azure AI Foundry, Hugging Face e do Catálogo da API da Nvidia. O objetivo é claro: IA que não esteja trancada atrás de hardware caro ou infraestrutura maciça, mas que possa operar em dispositivos padrão, na borda das redes, e em setores onde o poder computacional é escasso.

Masaya Nishimaki, um diretor da empresa japonesa de IA Headwaters Co., Ltd., vê o impacto em primeira mão. “A IA na borda demonstra desempenho excepcional mesmo em ambientes com conexões de rede instáveis ou onde a confidencialidade é primordial,” disse ele em uma declaração. Isso significa IA que pode funcionar em fábricas, hospitais, veículos autônomos — lugares onde a inteligência em tempo real é necessária, mas onde os modelos tradicionais baseados na nuvem falham.

No seu cerne, o Phi-4 representa uma mudança de pensamento. A IA não é apenas uma ferramenta para aqueles com os maiores servidores e os bolsos mais fundos. É uma capacidade que, se projetada bem, pode funcionar em qualquer lugar, para qualquer um. O mais revolucionário sobre o Phi-4 não é o que ele pode fazer — é onde ele pode fazer.

Insights diários sobre casos de uso empresarial com o VB Daily

Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Fornecemos informações sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um ROI máximo.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.