Bolt42

Os grandes modelos de linguagem (LLMs) apareceram na agenda de soberania digital da Europa com grande impacto na semana passada, quando surgiu a notícia de um novo programa para desenvolver uma série de LLMs “verdadeiramente” de código aberto que abranjam todas as línguas da União Europeia.

Isso inclui as atuais 24 línguas oficiais da UE, bem como línguas de países que atualmente estão em negociações para entrar no mercado da UE, como a Albânia. O objetivo é garantir um futuro sustentável.

OpenEuroLLM é uma colaboração entre cerca de 20 organizações, co-liderada por Jan Hajič, um linguista computacional da Universidade Charles em Praga, e Peter Sarlin, CEO e cofundador do laboratório de IA finlandês Silo AI, que foi adquirido pela AMD no ano passado por 665 milhões de dólares.

O projeto se insere em uma narrativa mais ampla que viu a Europa priorizar a soberania digital, permitindo-lhe trazer infraestrutura e ferramentas críticas para a missão mais perto de casa. A maioria dos gigantes da nuvem está investindo em infraestrutura local para garantir que os dados da UE permaneçam locais, enquanto a querida da IA OpenAI recentemente lançou uma nova oferta que permite aos clientes processar e armazenar dados na Europa.

Além disso, a UE recentemente assinou um contrato de 11 bilhões de dólares para criar uma constelação de satélites soberana que rivalize com a Starlink de Elon Musk.

Assim, o OpenEuroLLM certamente está em sintonia com a marca.

No entanto, o orçamento declarado apenas para a construção dos modelos em si é de 37,4 milhões de euros, com cerca de 20 milhões provenientes do Programa Digital Europe da UE — uma gota no oceano em comparação com o que os gigantes da IA corporativa estão investindo. O orçamento real é maior quando se considera o financiamento alocado para trabalhos tangenciais e relacionados, e, sem dúvida, a maior despesa são os custos computacionais. Os parceiros do projeto OpenEuroLLM incluem centros de supercomputação EuroHPC na Espanha, Itália, Finlândia e Países Baixos — e o projeto mais amplo EuroHPC possui um orçamento de cerca de 7 bilhões de euros.

Contudo, o grande número de partes participantes distintas, abrangendo academia, pesquisa e corporações, levou muitos a questionar se seus objetivos são alcançáveis. Anastasia Stasenko, cofundadora da empresa de LLM Pleias, questionou se um “consórcio espalhado de mais de 20 organizações” poderia ter o mesmo foco medido de uma empresa de IA privada local.

“Os recentes sucessos da Europa em IA brilham através de equipes pequenas e focadas como a Mistral AI e LightOn — empresas que realmente possuem o que estão construindo”, escreveu Stasenko. “Elas carregam responsabilidade imediata por suas escolhas, seja em finanças, posicionamento de mercado ou reputação.”

Pronto para o desafio

O projeto OpenEuroLLM está começando do zero ou tem uma vantagem inicial — dependendo de como se veja.

Desde 2022, Hajič também tem coordenado o projeto Tecnologias de Linguagem de Alto Desempenho (HPLT), que se propôs a desenvolver conjuntos de dados, modelos e fluxos de trabalho livres e reutilizáveis usando computação de alto desempenho (HPC). Esse projeto está programado para terminar no final de 2025, mas pode ser visto como uma espécie de “antecessor” do OpenEuroLLM, de acordo com Hajič, dado que a maioria dos parceiros do HPLT (exceto os parceiros do Reino Unido) também estão participando aqui.

“Este [OpenEuroLLM] é realmente apenas uma participação mais ampla, mas mais focada em LLMs generativos,” disse Hajič. “Portanto, não estamos começando do zero em termos de dados, experiência, ferramentas e experiência computacional. Reunimos pessoas que sabem o que estão fazendo — devemos conseguir avançar rapidamente.”

Hajič afirmou que espera que a(s) primeira(s) versão(ões) sejam lançadas até meados de 2026, com a(s) iteração(ões) final(is) chegando até o término do projeto em 2028. Mas esses objetivos podem ainda parecer elevados quando você considera que ainda há pouco para se ver além de um básico perfil no GitHub.

“Nesse respeito, estamos começando do zero — o projeto começou no sábado [1º de fevereiro]”, disse Hajič. “Mas temos nos preparado para o projeto há um ano [o processo de licitação abriu em fevereiro de 2024].”

Da academia e da pesquisa, organizações da República Tcheca, Países Baixos, Alemanha, Suécia, Finlândia e Noruega fazem parte do grupo OpenEuroLLM, além dos centros EuroHPC. Do mundo corporativo, o laboratório de IA Silo AI, de propriedade da AMD na Finlândia, está a bordo, assim como Aleph Alpha (Alemanha), Ellamind (Alemanha), Prompsit Language Engineering (Espanha) e LightOn (França).

Uma omissão notável na lista é a da unicórnio de IA francesa Mistral, que se posicionou como uma alternativa de código aberto a incumbentes como a OpenAI. Embora ninguém da Mistral tenha respondido ao TechCrunch para comentar, Hajič confirmou que tentou iniciar conversas com a startup, mas sem sucesso.

“Tentei me aproximar deles, mas isso não resultou em uma discussão focada sobre sua participação,” disse Hajič.

O projeto ainda pode reunir novos participantes como parte do programa da UE que está fornecendo financiamento, embora esteja limitado a organizações da UE. Isso significa que entidades do Reino Unido e da Suíça não poderão participar. Isso contrasta com o programa Horizon R&D, do qual o Reino Unido se reintegrou em 2023 após um longo impasse do Brexit e que forneceu financiamento ao HPLT.

Desenvolvimento

O objetivo principal do projeto, conforme seu slogan, é criar: “Uma série de modelos fundamentais para IA transparente na Europa.” Além disso, esses modelos devem preservar a “diversidade linguística e cultural” de todas as línguas da UE — atuais e futuras.

O que isso se traduz em termos de entregas ainda está sendo definido, mas provavelmente significará um LLM multilíngue central projetado para tarefas gerais onde a precisão é fundamental. E também versões “quantizadas” menores, talvez para aplicações em edge onde eficiência e rapidez são mais importantes.

“Isso é algo sobre o qual ainda temos que elaborar um plano detalhado,” disse Hajič. “Queremos que seja o mais pequeno, mas de alta qualidade possível. Não queremos lançar algo que seja apenas parcialmente desenvolvido, porque do ponto de vista europeu isso é uma questão de alto risco, com muito dinheiro vindo da Comissão Europeia — dinheiro público.”

Embora o objetivo seja fazer o modelo o mais proficiente possível em todas as línguas, alcançar igualdade em todos os aspectos também pode ser desafiador.

“Esse é o objetivo, mas quão bem-sucedidos podemos ser com línguas com escassos recursos digitais é a questão,” disse Hajič. “Mas é também por isso que queremos ter benchmarks verdadeiros para essas línguas, e não ser influenciados por benchmarks que talvez não sejam representativos das línguas e da cultura que as sustentam.”

Em termos de dados, é aqui que muito do trabalho do projeto HPLT se mostrará frutífero, com a versão 2.0 de seu conjunto de dados lançado há quatro meses. Este conjunto de dados foi treinado com 4,5 petabytes de rastreios da web e mais de 20 bilhões de documentos, e Hajič afirmou que eles adicionarão dados adicionais do Common Crawl (um repositório aberto de dados extraídos da web) ao conjunto.

A definição de código aberto

No software tradicional, a luta perpétua entre código aberto e proprietário gira em torno do que significa “código aberto” na verdade. Isso pode ser resolvido referindo-se à “definição” formal, conforme a Iniciativa Open Source, os guardiões da indústria sobre o que são e o que não são licenças de código aberto legítimas.

Mais recentemente, a OSI formou uma definição de “IA de código aberto”, embora nem todos estejam satisfeitos com o resultado. Os defensores da IA de código aberto argumentam que não apenas os modelos devem estar disponíveis gratuitamente, mas também os conjuntos de dados, modelos pré-treinados, pesos — tudo. A definição da OSI não torna os dados de treinamento obrigatórios, pois afirma que os modelos de IA são frequentemente treinados em dados proprietários ou dados com restrições de redistribuição.

Dito isso, o OpenEuroLLM está enfrentando esses mesmos dilemas, e apesar de suas intenções de ser “verdadeiramente aberto”, provavelmente terá que fazer alguns compromissos se for cumprir suas obrigações de “qualidade”.

“O objetivo é ter tudo aberto. Agora, claro, existem algumas limitações,” disse Hajič. “Queremos ter modelos da mais alta qualidade possível e, com base na diretiva de direitos autorais europeia, podemos usar qualquer coisa que pudermos encontrar. Alguns não podem ser redistribuídos, mas alguns podem ser armazenados para inspeção futura.”

O que isso significa é que o projeto OpenEuroLLM pode ter que manter alguns dos dados de treinamento em sigilo, mas estarem disponíveis para auditores mediante solicitação — conforme exigido para sistemas de IA de alto risco sob os termos da Lei de IA da UE.

“Esperamos que a maioria dos dados [seja aberta], especialmente os dados vindos do Common Crawl,” disse Hajič. “Gostaríamos que tudo fosse completamente aberto, mas veremos. Em qualquer caso, teremos que cumprir as regulamentações de IA.”

Um por dois

Outra crítica que surgiu após a apresentação formal do OpenEuroLLM foi que um projeto muito semelhante foi lançado na Europa apenas alguns meses antes. EuroLLM, que lançou seu primeiro modelo em setembro e um seguimento em dezembro, é cofinanciado pela UE juntamente com um consórcio de nove parceiros. Entre eles estão instituições acadêmicas como a Universidade de Edimburgo e corporações como a Unbabel, que no ano passado ganhou milhões de horas de treinamento em GPU em supercomputadores da UE.

O EuroLLM compartilha objetivos semelhantes ao seu quase homônimo: “Construir um modelo de linguagem europeu de código aberto que suporta 24 línguas oficiais europeias e algumas outras línguas estrategicamente importantes.”

Andre Martins, chefe de pesquisa da Unbabel, recorreu às redes sociais para destacar essas semelhanças, observando que o OpenEuroLLM está se apropriando de um nome que já existe. “Espero que as diferentes comunidades colaborem abertamente, compartilhem sua expertise e não decidam reinventar a roda toda vez que um novo projeto é financiado,” escreveu Martins.

Hajič chamou a situação de “infeliz”, acrescentando que espera que eles possam cooperar, embora tenha enfatizado que, devido à origem de seu financiamento na UE, o OpenEuroLLM está restrito em termos de colaborações com entidades fora da UE, incluindo universidades do Reino Unido.

Diferença de financiamento

A chegada do DeepSeek da China e a relação custo-desempenho que ele promete deram alguma esperança de que iniciativas de IA possam fazer muito mais com muito menos do que se pensava inicialmente. No entanto, nas últimas semanas, muitos têm questionado os verdadeiros custos envolvidos na construção do DeepSeek.

“Com relação ao DeepSeek, na verdade, sabemos muito pouco sobre o que exatamente foi envolvido em sua construção,” disse Peter Sarlin, que é co-líder técnico do projeto OpenEuroLLM, ao TechCrunch.

Independentemente disso, Sarlin acredita que o OpenEuroLLM terá acesso a financiamento suficiente, já que a maior parte é para cobrir pessoas. De fato, uma grande parte dos custos de construção de sistemas de IA é computação, e isso deve ser coberto principalmente através de sua parceria com os centros EuroHPC.

“Você poderia dizer que o OpenEuroLLM na verdade tem um orçamento bastante significativo,” disse Sarlin. “O EuroHPC investiu bilhões em IA e infraestrutura computacional e se comprometeu a investir bilhões a mais na expansão disso nos próximos anos.”

Vale ressaltar também que o projeto OpenEuroLLM não está construindo um produto de consumo ou empresarial. É puramente sobre os modelos, e é por isso que Sarlin acredita que o orçamento que tem deve ser suficiente.

“A intenção aqui não é construir um chatbot ou um assistente de IA — isso seria uma iniciativa de produto que requereria muito esforço, e é isso que o ChatGPT fez tão bem,” disse Sarlin. “O que estamos contribuindo é um modelo fundamental de código aberto que funciona como a infraestrutura de IA para as empresas na Europa construírem sobre.”

Desde 2017, Sarlin lidera o laboratório de IA Silo AI, que lançou — em parceria com outros, incluindo o projeto HPLT — a família de modelos abertos Poro e Viking. Esses já suportam algumas línguas europeias, mas a empresa está agora preparando a próxima iteração dos modelos “Europa”, que cobrirão todas as línguas europeias.

E isso se liga à ideia de “não estar começando do zero” expressa por Hajič — já há uma base de expertise e tecnologia em andamento.

Estado soberano

Como críticos apontaram, o OpenEuroLLM tem muitos componentes em movimento — o que Hajič reconhece, embora com uma perspectiva positiva.

“Estive envolvido em muitos projetos colaborativos, e acredito que eles têm suas vantagens em comparação com uma única empresa,” disse ele. “Claro que eles fizeram grandes coisas em empresas como a OpenAI até a Mistral, mas espero que a combinação da expertise acadêmica e o foco das empresas possam trazer algo novo.”

E de muitas maneiras, não se trata de tentar superar as gigantes da tecnologia ou startups de IA de bilhões; o objetivo final é a soberania digital: LLMs fundamentais (principalmente) abertos construídos por e para a Europa.

“Espero que isso não aconteça, mas se, no final, não formos o modelo número um e tivermos um ‘bom’ modelo, então ainda teremos um modelo com todos os componentes baseados na Europa,” disse Hajič. “Isso será um resultado positivo.”


    15 − nove =

    Bolt42