Na quarta-feira, a Microsoft lançou vários novos modelos de IA “abertos”, sendo o mais avançado deles competitivo com o o3-mini da OpenAI em pelo menos um benchmark.
Como o nome sugere, todos os novos modelos com licença permissiva — Phi 4 mini reasoning, Phi 4 reasoning e Phi 4 reasoning plus — são modelos de “raciocínio”, significando que podem levar mais tempo para verificar soluções para problemas complexos. Eles ampliam a família de “pequenos modelos” Phi da Microsoft, que a empresa lançou há um ano para oferecer uma base para desenvolvedores de IA que criam aplicativos na borda.
Phi 4 mini reasoning foi treinado em aproximadamente 1 milhão de problemas matemáticos sintéticos gerados pelo modelo de raciocínio R1 da startup de IA chinesa DeepSeek. Com cerca de 3,8 bilhões de parâmetros, o Phi 4 mini reasoning é projetado para aplicações educacionais, segundo a Microsoft, como “tutoria incorporada” em dispositivos leves.
Os parâmetros correspondem aproximadamente às habilidades de resolução de problemas de um modelo, e modelos com mais parâmetros geralmente têm um desempenho melhor do que aqueles com menos parâmetros.
Phi 4 reasoning, um modelo de 14 bilhões de parâmetros, foi treinado usando dados da web de “alta qualidade”, assim como “demonstrações curadas” do mencionado o3-mini da OpenAI. É mais indicado para aplicações de matemática, ciência e codificação, de acordo com a Microsoft.
Quanto ao Phi 4 reasoning plus, é o modelo Phi 4 previamente lançado pela Microsoft adaptado para ser um modelo de raciocínio a fim de alcançar melhor precisão para tarefas específicas. A Microsoft afirma que o Phi 4 reasoning plus se aproxima dos níveis de desempenho do DeepSeek R1, que possui significativamente mais parâmetros (671 bilhões). A avaliação interna da empresa também mostra que o Phi 4 reasoning plus iguala o o3-mini no OmniMath, um teste de habilidades matemáticas.
Phi 4 mini reasoning, Phi 4 reasoning, Phi 4 reasoning plus e seus relatórios técnicos detalhados estão disponíveis na plataforma para desenvolvedores de IA Hugging Face.
Evento Techcrunch
Berkeley, CA
|
5 de junho
RESERVE JÁ
“Usando destilação, aprendizado por reforço e dados de alta qualidade, esses [novos] modelos equilibram tamanho e desempenho,” escreveu a Microsoft em um post de blog. “Eles são pequenos o suficiente para ambientes de baixa latência, mas mantêm fortes capacidades de raciocínio que rivalizam com modelos muito maiores. Essa combinação permite que até mesmo dispositivos limitados em recursos realizem tarefas de raciocínio complexo de forma eficiente.”
Conteúdo relacionado
Estudo acusa a LM Arena de ajudar os principais laboratórios de IA a manipular seu benchmark.
[the_ad id="145565"] Um novo artigo do laboratório de IA Cohere, Stanford, MIT e Ai2 acusa a LM Arena, a organização por trás do popular benchmark de IA crowdsourced Chatbot…
Amazon lança o Nova Premier, seu modelo de IA mais avançado até agora.
[the_ad id="145565"] A Amazon anunciou na quarta-feira o lançamento do que a empresa afirma ser o modelo de IA mais capaz de sua família Nova, o Nova Premier. O Nova Premier,…
A Meta previu que fará $1,4 trilhões em receita com IA generativa até 2035.
[the_ad id="145565"] A Meta fez uma previsão no ano passado de que seus produtos de IA generativa gerariam entre US$ 2 bilhões e US$ 3 bilhões em receita em 2025, e entre US$…