Na semana passada, o laboratório chinês DeepSeek lançou uma versão atualizada de seu modelo de IA de raciocínio R1, que se apresenta bem em vários benchmarks de matemática e programação. A empresa não revelou a origem dos dados usados para treinar o modelo, mas alguns pesquisadores de IA especulam que pelo menos uma parte tenha vindo da família de IA Gemini do Google.
Sam Paech, um desenvolvedor baseado em Melbourne que cria avaliações de “inteligência emocional” para IA, publicou o que afirma ser evidência de que o último modelo do DeepSeek foi treinado com saídas do Gemini. O modelo do DeepSeek, chamado R1-0528, prefere palavras e expressões similares às que o Google Gemini 2.5 Pro favorece, disse Paech em um post no X.
If you’re wondering why new deepseek r1 sounds a bit different, I think they probably switched from training on synthetic openai to synthetic gemini outputs. pic.twitter.com/Oex9roapNv — Sam Paech (@sam_paech) May 29, 2025
Isso não é uma prova concreta. Mas outro desenvolvedor, o criador pseudônimo de uma avaliação de “liberdade de expressão” para IA chamada SpeechMap, observou que as “traces” do modelo DeepSeek — os “pensamentos” que o modelo gera enquanto trabalha para chegar a uma conclusão — “lêem como traces do Gemini”.
O DeepSeek já foi acusado de treinar com dados de modelos de IA rivais antes. Em dezembro, desenvolvedores notaram que o modelo V3 do DeepSeek frequentemente se identificava como ChatGPT, a plataforma de chatbot da OpenAI, sugerindo que poderia ter sido treinado com logs de chat do ChatGPT.
No início deste ano, a OpenAI disse ao Financial Times que encontrou evidências ligando o DeepSeek ao uso de destilação, uma técnica para treinar modelos de IA extraindo dados de modelos maiores e mais capazes. De acordo com a Bloomberg, a Microsoft, uma colaboradora e investidora próxima da OpenAI, detectou que grandes quantidades de dados estavam sendo exfiltradas através de contas de desenvolvedores da OpenAI no final de 2024 — contas que a OpenAI acredita estarem afiliadas ao DeepSeek.
A destilação não é uma prática incomum, mas os termos de serviço da OpenAI proíbem clientes de usar as saídas do modelo da empresa para construir IA concorrente.
Para ser claro, muitos modelos se identificam de forma incorreta e convergem nas mesmas palavras e expressões. Isso ocorre porque a web aberta, de onde as empresas de IA obtêm a maior parte de seus dados de treinamento, está se tornando contaminada com a bagunça da IA. Fazendas de conteúdo estão usando IA para criar clickbait, e bots estão inundando Reddit e X.
Essa “contaminação”, se assim podemos chamar, dificultou bastante a filtragem completa das saídas da IA a partir dos conjuntos de dados de treinamento.
Ainda assim, especialistas em IA como Nathan Lambert, pesquisador do instituto sem fins lucrativos AI2, não descartam a possibilidade de que o DeepSeek tenha treinado com dados do Gemini do Google.
If I was DeepSeek, I would definitely create a ton of synthetic data from the best API model out there. They’re short on GPUs and flush with cash. It’s literally effectively more compute for them. yes on the Gemini distill question. — Nathan Lambert (@natolambert) June 3, 2025
Em parte para evitar a destilação, as empresas de IA têm intensificado as medidas de segurança.
Em abril, a OpenAI começou a exigir que as organizações completassem um processo de verificação de ID para acessar certos modelos avançados. O processo requer um documento de identidade emitido pelo governo de um dos países suportados pela API da OpenAI; a China não está na lista.
Em outro lugar, o Google recentemente começou a “resumir” as traces geradas por modelos disponíveis através de sua plataforma de desenvolvedores AI Studio, uma medida que torna mais desafiador treinar modelos rivais performáticos com traces do Gemini. A Anthropic, em maio, disse que começaria a resumir as traces de seu próprio modelo, citando a necessidade de proteger suas “vantagens competitivas.”
Entramos em contato com o Google para um comentário e atualizaremos este texto se recebermos uma resposta.
Conteúdo relacionado
X altera seus termos para proibir o treinamento de modelos de IA com seu conteúdo.
[the_ad id="145565"] A rede social X alterou seu contrato com desenvolvedores para impedir que terceiros utilizem o conteúdo da plataforma para treinar modelos de linguagem de…
A América do Norte concentra a maior parte dos investimentos em capital de risco em IA, apesar do ambiente político desafiador.
[the_ad id="145565"] Apesar do que alguns especialistas têm caracterizado como um ambiente cada vez mais hostil à P&D em IA, a América do Norte continua recebendo a maior…
CEO da Alphabet, Sundar Pichai, descarta temores sobre empregos com IA e destaca planos de expansão.
[the_ad id="145565"] Em uma entrevista à Bloomberg na noite de quarta-feira, no centro de San Francisco, o CEO da Alphabet, Sundar Pichai, rejeitou as preocupações de que a IA…