A OpenAI acredita que os benchmarks de IA estão quebrados. Agora, a empresa está lançando um programa para corrigir a forma como os modelos de IA são avaliados.
O novo Programa Pioneiros da OpenAI irá focar na criação de avaliações para modelos de IA que “definam o que é uma boa performance”, conforme a OpenAI mencionou em uma postagem no blog.
“À medida que a adoção de IA acelera em várias indústrias, há uma necessidade de entender e melhorar seu impacto no mundo,” continuou a empresa em sua postagem. “Criar avaliações específicas para cada domínio é uma maneira de refletir melhor os casos de uso do mundo real, ajudando as equipes a avaliar o desempenho dos modelos em ambientes práticos e de alto risco.”
Como a recente controvérsia com o benchmark crowdsourced LM Arena e o modelo Maverick da Meta ilustra, está difícil saber, atualmente, o que realmente diferencia um modelo do outro. Muitos benchmarks de IA amplamente utilizados medem o desempenho em tarefas esotéricas, como resolver problemas matemáticos de nível doutorado. Outros podem ser manipulados ou não alinham bem com as preferências da maioria das pessoas.
Por meio do Programa Pioneiros, a OpenAI espera criar benchmarks para domínios específicos como direito, finanças, seguros, saúde e contabilidade. O laboratório afirma que, nos próximos meses, irá trabalhar com “várias empresas” para desenhar benchmarks personalizados e, eventualmente, compartilhar esses benchmarks publicamente, junto com avaliações “específicas do setor”.
“A primeira cohort irá focar em startups que ajudarão a estabelecer as bases do Programa Pioneiros da OpenAI,” escreveu a OpenAI na postagem do blog. “Estamos selecionando um pequeno número de startups para esta cohort inicial, cada uma trabalhando em casos de uso aplicados de grande valor, onde a IA pode gerar um impacto real no mundo.”
As empresas do programa também terão a oportunidade de trabalhar com a equipe da OpenAI para criar melhorias nos modelos através do ajuste fino por reforço, uma técnica que otimiza modelos para um conjunto específico de tarefas, afirma a OpenAI.
A grande questão é se a comunidade de IA aceitará benchmarks cuja criação foi financiada pela OpenAI. A OpenAI já apoiou esforços de benchmarking financeiramente no passado e criou suas próprias avaliações. Mas a parceria com clientes para liberar testes de IA pode ser vista como uma barreira ética excessiva.
Conteúdo relacionado
OpenAI está supostamente em negociações para comprar a Windsurf por $3 bilhões, com novidades esperadas para esta semana.
[the_ad id="145565"] A Windsurf, fabricante de um popular assistente de codificação por IA, está em negociações para ser adquirida pela OpenAI por cerca de $3 bilhões, segundo…
A OpenAI procurou o criador do Cursor antes de iniciar negociações para comprar a Windsurf por $3 bilhões.
[the_ad id="145565"] Quando a notícia de que a OpenAI estava em negociações para adquirir a empresa de codificação AI Windsurf por $3 bilhões surgiu, uma das primeiras…
Como a IA está redesenhando os mapas de eletricidade do mundo: Insights do Relatório da AIE
[the_ad id="145565"] A inteligência artificial (IA) não está apenas transformando a tecnologia; ela também está mudando de forma significativa o setor energético global. De…