Bolt42

Participe de nossas newsletters diárias e semanais para as últimas novidades e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais


Ainda que seu grande parceiro de investimento OpenAI continue a anunciar modelos de raciocínio mais poderosos, como a mais recente série o3, a Microsoft não está parada. Em vez disso, está buscando o desenvolvimento de modelos pequenos mais potentes lançados sob sua própria marca.

Conforme anunciado por vários pesquisadores atuais e ex-cientistas de IA da Microsoft hoje no X, a Microsoft está lançando seu modelo Phi-4 como um projeto totalmente de código aberto, com pesos para download no Hugging Face, a comunidade de compartilhamento de código de IA.

“Ficamos completamente impressionados com a resposta ao lançamento do phi-4,” escreveu o engenheiro principal de pesquisa em IA da Microsoft, Shital Shah, no X. “Muita gente estava nos pedindo a liberação dos pesos. Alguns até carregaram pesos do phi-4 clandestinos no Hugging Face… Bem, não esperem mais. Estamos liberando hoje o modelo oficial phi-4 no Hugging Face! Com licença MIT!!”

Pesos referem-se aos valores numéricos que especificam como um modelo de linguagem de IA, pequeno ou grande, entende e produz linguagem e dados. Os pesos do modelo são estabelecidos pelo seu processo de treinamento, normalmente através de aprendizado profundo não supervisionado, durante o qual ele determina quais saídas devem ser fornecidas com base nas entradas que recebe. Os pesos do modelo podem ser ajustados ainda mais por pesquisadores humanos e criadores do modelo que adicionam suas próprias configurações, chamadas de vieses, ao modelo durante o treinamento. Um modelo geralmente não é considerado totalmente de código aberto, a menos que seus pesos tenham sido tornados públicos, pois isso permite que outros pesquisadores humanos peguem o modelo e o personalizem totalmente ou o adaptem para seus próprios fins.

Embora o Phi-4 tenha sido realmente revelado pela Microsoft no mês passado, seu uso foi inicialmente restrito à nova plataforma de desenvolvimento Azure AI Foundry da Microsoft.

Agora, o Phi-4 está disponível fora desse serviço proprietário para qualquer pessoa que tenha uma conta no Hugging Face e vem acompanhado de uma licença permissiva MIT, permitindo seu uso em aplicações comerciais também.

Este lançamento proporciona a pesquisadores e desenvolvedores acesso total aos 14 bilhões de parâmetros do modelo, possibilitando experimentação e implementação sem as limitações de recursos frequentemente associadas a sistemas de IA maiores.

Uma mudança em direção à eficiência em IA

O Phi-4 foi inicialmente lançado na plataforma Azure AI Foundry da Microsoft em dezembro de 2024, onde os desenvolvedores podiam acessá-lo sob um acordo de licença de pesquisa.

O modelo rapidamente ganhou atenção por superar muitos de seus maiores concorrentes em áreas como raciocínio matemático e compreensão de linguagem multitarefa, tudo isso exigindo significativamente menos recursos computacionais.

A arquitetura simplificada do modelo e seu foco em raciocínio e lógica visam atender à crescente necessidade de alto desempenho em IA que permaneça eficiente em ambientes com restrições de computação e memória. Com este lançamento de código aberto sob uma licença permissiva MIT, a Microsoft está tornando o Phi-4 mais acessível a um público mais amplo de pesquisadores e desenvolvedores, incluindo os comerciais, sinalizando uma possível mudança na forma como a indústria de IA aborda o design e a implementação de modelos.

O que torna Phi-4 especial?

O Phi-4 se destaca em benchmarks que testam capacidades avançadas de raciocínio e específicas de domínio. Destaques incluem:

• Marcando mais de 80% em benchmarks desafiadores como MATH e MGSM, superando modelos maiores como o Gemini Pro do Google e o GPT-4o-mini.

• Desempenho superior em tarefas de raciocínio matemático, uma capacidade crítica para áreas como finanças, engenharia e pesquisa científica.

• Resultados impressionantes em HumanEval para geração de código funcional, tornando-o uma escolha forte para programação assistida por IA.

Além disso, a arquitetura e o processo de treinamento do Phi-4 foram projetados com precisão e eficiência em mente. Seu modelo denso de 14 bilhões de parâmetros, apenas com decodificação, foi treinado em 9,8 trilhões de tokens de conjuntos de dados curados e sintéticos, incluindo:

• Documentos publicamente disponíveis rigorosamente filtrados para qualidade.

• Dados sintéticos de estilo didático focados em matemática, codificação e raciocínio de senso comum.

• Livros acadêmicos de alta qualidade e conjuntos de dados de perguntas e respostas.

Os dados de treinamento também incluíram conteúdo multilíngue (8%), embora o modelo seja principalmente otimizado para aplicações em inglês.

Seus criadores na Microsoft afirmam que os processos de segurança e alinhamento, incluindo ajuste fino supervisionado e otimização de preferências diretas, garantem um desempenho robusto enquanto abordam preocupações sobre imparcialidade e confiabilidade.

A vantagem do código aberto

Ao tornar o Phi-4 disponível no Hugging Face com seus pesos completos e uma licença MIT, a Microsoft está abrindo-o para que empresas o utilizem em suas operações comerciais.

Desenvolvedores agora podem incorporar o modelo em seus projetos ou ajustá-lo para aplicações específicas sem a necessidade de recursos computacionais extensivos ou permissão da Microsoft.

Essa movimentação também está alinhada com a crescente tendência de abrir modelos fundamentais de IA para fomentar inovação e transparência. Diferentemente de modelos proprietários, que muitas vezes estão limitados a plataformas ou APIs específicas, a natureza de código aberto do Phi-4 garante maior acessibilidade e adaptabilidade.

Equilibrando segurança e desempenho

Com o lançamento do Phi-4, a Microsoft enfatiza a importância do desenvolvimento responsável de IA. O modelo passou por extensas avaliações de segurança, incluindo testes adversariais, para minimizar riscos como viés, geração de conteúdo prejudicial e desinformação.

No entanto, os desenvolvedores são aconselhados a implementar salvaguardas adicionais para aplicações de alto risco e a fundamentar as saídas em informações contextuais verificadas ao implantar o modelo em cenários sensíveis.

Implicações para o cenário de IA

O Phi-4 desafia a tendência predominante de escalar modelos de IA para tamanhos enormes. Ele demonstra que modelos menores e bem projetados podem alcançar resultados comparáveis ou superiores em áreas fundamentais.

Essa eficiência não apenas reduz custos, mas também diminui o consumo de energia, tornando as capacidades avançadas de IA mais acessíveis para organizações de médio porte e empresas com orçamentos de computação limitados.

À medida que os desenvolvedores começam a experimentar com o modelo, em breve veremos se ele pode servir como uma alternativa viável a modelos comerciais e de código aberto rivais da OpenAI, Anthropic, Google, Meta, DeepSeek e muitos outros.





    19 − cinco =




    Bolt42