IA em Foco: Novidades e Desafios da Semana

Bem-vindo ao boletim regular de IA da TechCrunch! Estamos entrando em um hiato por um tempo, mas você pode encontrar toda a nossa cobertura de IA, incluindo minhas colunas, nossa análise diária e histórias de notícias de última hora, na TechCrunch. Se você quiser essas histórias e muito mais na sua caixa de entrada todos os dias, inscreva-se em nossos boletins diários aqui.

Nesta semana, a startup de IA do bilionário Elon Musk, a xAI, lançou seu mais recente modelo de IA, o Grok 3, que alimenta os aplicativos de chatbot Grok da empresa. Treinado em cerca de 200.000 GPUs, o modelo supera vários outros modelos líderes, incluindo os da OpenAI, em benchmarks de matemática, programação e mais.

Mas o que esses benchmarks realmente nos dizem?

Aqui na TC, muitas vezes relutamos em relatar números de benchmark porque são uma das poucas (relativamente) maneiras padronizadas que a indústria de IA mede melhorias nos modelos. Benchmarks de IA populares tendem a testar conhecimentos esotéricos e dão pontuações agregadas que correlacionam mal com a proficiência nas tarefas que a maioria das pessoas se importa.

Como o professor da Wharton, Ethan Mollick, apontou em uma série de postagens no X após a divulgação do Grok 3, há uma “necessidade urgente por melhores baterias de testes e autoridades de testes independentes.” Empresas de IA frequentemente relatam os resultados dos benchmarks por conta própria, como Mollick aludiu, tornando esses resultados ainda mais difíceis de serem aceitos como verdadeiros.

“Benchmarks públicos são tanto ‘meh’ quanto saturados, deixando muitos testes de IA parecendo críticas gastronômicas, baseadas em gosto,” escreveu Mollick. “Se a IA é crítica para o trabalho, precisamos de mais.”

Não faltam testes e organizações independentes propondo novos benchmarks para IA, mas seu mérito relativo está longe de ser uma questão resolvida dentro da indústria. Alguns comentaristas e especialistas em IA propõem alinhavar benchmarks com impacto econômico para garantir sua utilidade, enquanto outros argumentam que adoção e utilidade são os verdadeiros benchmarks.

Esse debate pode durar até o fim dos tempos. Talvez devêssemos, como prescreve o usuário do X Roon, simplesmente prestar menos atenção a novos modelos e benchmarks, exceto em casos de grandes avanços técnicos em IA. Para nossa sanidade coletiva, essa pode não ser a pior ideia, mesmo que isso induza um certo nível de FOMO (medo de ficar de fora) em relação à IA.

Como mencionado acima, esta Semana em IA está entrando em hiato. Obrigado por nos acompanhar, leitores, através dessa montanha-russa de jornada. Até a próxima.

Notícias

**Créditos da imagem:**Nathan Laine/Bloomberg / Getty Images

OpenAI tenta “desocultar” o ChatGPT: Max escreveu sobre como a OpenAI está mudando sua abordagem de desenvolvimento de IA para abraçar explicitamente a “liberdade intelectual”, independentemente de quão desafiador ou controverso o assunto possa ser.

Nova startup da Mira: A nova startup da ex-CTO da OpenAI, Mira Murati, Thinking Machines Lab, pretende construir ferramentas para “fazer a IA funcionar para [as necessidades e metas] únicas das pessoas.”

Grok 3 está chegando: A startup de IA de Elon Musk, xAI, lançou seu mais recente modelo de IA, o Grok 3, e revelou novas capacidades para os aplicativos Grok para iOS e web.

Uma conferência muito Llama: A Meta realizará sua primeira conferência de desenvolvedores dedicada à IA generativa nesta primavera. Chamada LlamaCon em homenagem à família de modelos de IA generativa Llama da Meta, a conferência está marcada para 29 de abril.

IA e a soberania digital da Europa: Paul fez um perfil da OpenEuroLLM, uma colaboração entre cerca de 20 organizações para construir “uma série de modelos de base para uma IA transparente na Europa” que preserva a “diversidade linguística e cultural” de todas as línguas da UE.

Artigo de pesquisa da semana

Site da OpenAI ChatGPT exibido na tela de um laptop — **Créditos da imagem:**Jakub Porzycki/NurPhoto / Getty Images

Pesquisadores da OpenAI criaram um novo benchmark de IA, SWE-Lancer, que visa avaliar a habilidade de codificação de sistemas de IA poderosos. O benchmark consiste em mais de 1.400 tarefas de engenharia de software freelance que vão desde correções de bugs e implementações de recursos a “propostas técnicas em nível de gerente”.

De acordo com a OpenAI, o modelo de IA com melhor desempenho, o Claude 3.5 Sonnet da Anthropic, pontua 40,3% no benchmark completo do SWE-Lancer — sugerindo que a IA ainda tem um longo caminho a percorrer. É importante ressaltar que os pesquisadores não avaliaram modelos mais novos, como o o3-mini da OpenAI ou o R1 da empresa chinesa DeepSeek.

Modelo da semana

Uma empresa de IA chinesa chamada Stepfun lançou um modelo de IA “aberto”, Step-Audio, que pode entender e gerar fala em várias línguas. O Step-Audio suporta chinês, inglês e japonês e permite que os usuários ajustem a emoção e até o dialeto do áudio sintético que cria, incluindo canto.

A Stepfun é uma das várias startups chinesas de IA bem financiadas que estão lançando modelos sob uma licença permissiva. Fundada em 2023, a Stepfun segundo relatos, fechou recentemente uma rodada de financiamento no valor de várias centenas de milhões de dólares de um conjunto de investidores que inclui firmas de private equity estatais da China.

Miscellaneous

Nous Research DeepHermes — **Créditos da imagem:**Nous Research

O Nous Research, um grupo de pesquisa em IA, lançou o que afirma ser um dos primeiros modelos de IA que unifica raciocínio e “capabilidades intuitivas de modelo de linguagem.”

O modelo, DeepHermes-3 Preview, pode ativar e desativar longas “sequências de raciocínio” para melhorar a precisão à custa de um certo peso computacional. No “modo de raciocínio”, o DeepHermes-3 Preview, semelhante a outros modelos de IA de raciocínio, “pensa” por mais tempo para problemas mais difíceis e mostra seu processo de pensamento para chegar à resposta.

A Anthropic, segundo relatos, planeja lançar um modelo arquitetonicamente semelhante em breve, e a OpenAI já afirmou que tal modelo está em sua lista de prioridades a curto prazo.