Logo após a OpenAI lançar o o1, seu primeiro modelo de IA “racional”, as pessoas começaram a notar um fenômeno curioso. O modelo, às vezes, começava a “pensar” em chinês, persa ou em algum outro idioma — mesmo quando perguntado em inglês.
Diante de um problema a resolver — por exemplo, “Quantas letras R existem na palavra ‘morango?’” — o o1 iniciaria seu processo de “pensamento”, chegando a uma resposta ao executar uma série de passos de raciocínio. Se a pergunta fosse feita em inglês, a resposta final de o1 seria em inglês. No entanto, o modelo realizaria alguns passos em outro idioma antes de chegar à sua conclusão.
“[o1] começou a pensar aleatoriamente em chinês no meio do caminho,” disse um usuário no Reddit disse.
“Por que [o1] começou aleatoriamente a pensar em chinês?” perguntou um usuário diferente em um post no X. “Nenhuma parte da conversa (mais de 5 mensagens) estava em chinês.”
Por que o o1 pro aleatoriamente começou a pensar em chinês? Nenhuma parte da conversa (mais de 5 mensagens) estava em chinês… muito interessante… influência dos dados de treinamento pic.twitter.com/yZWCzoaiit
— Rishab Jain (@RishabJainK) 9 de janeiro de 2025
A OpenAI não forneceu uma explicação para o comportamento estranho do o1 — nem mesmo o reconheceu. Então, o que pode estar acontecendo?
Bem, os especialistas em IA não têm certeza. Mas eles têm algumas teorias.
Vários no X, incluindo o CEO da Hugging Face, Clément Delangue, aludiram ao fato de que modelos de raciocínio como o o1 são treinados em conjuntos de dados que contêm muitos caracteres chineses. Ted Xiao, um pesquisador da Google DeepMind, afirmou que empresas, incluindo a OpenAI, utilizam serviços de rotulagem de dados chineses de terceiros, e que a mudança do o1 para o chinês é um exemplo de “influência linguística chinesa no raciocínio.”
“[Laboratórios como] OpenAI e Anthropic utilizam serviços de rotulagem de dados de terceiros para dados de raciocínio em nível de doutorado para ciências, matemática e programação,” escreveu Xiao em um post no X. “[P]or questões de disponibilidade e custo de mão-de-obra especializada, muitos desses provedores de dados estão baseados na China.”
Rótulos, também conhecidos como tags ou anotações, ajudam os modelos a entender e interpretar dados durante o processo de treinamento. Por exemplo, rótulos para treinar um modelo de reconhecimento de imagem podem se apresentar na forma de marcações ao redor de objetos ou legendas referindo-se a cada pessoa, lugar ou objeto representado em uma imagem.
Estudos mostraram que rótulos tendenciosos podem produzir modelos tendenciosos. Por exemplo, o anotador médio tem mais probabilidade de rotular frases em Vernáculo Afro-Americano (AAVE), a gramática informal utilizada por alguns americanos negros, como tóxicas, levando detectores de toxicidade de IA treinados com esses rótulos a considerar o AAVE como desproporcionalmente tóxico.
Outros especialistas, no entanto, não acreditam na hipótese da rotulagem de dados chineses do o1. Eles apontam que o o1 também poderia mudar para hindi, tailandês ou um idioma diferente do chinês enquanto elucida uma solução.
Esses especialistas afirmam que o o1 e outros modelos de raciocínio podem simplesmente estar usando idiomas que consideram mais eficientes para alcançar um objetivo (ou alucinado).
“O modelo não sabe o que é linguagem, ou que as línguas são diferentes,” afirmou Matthew Guzdial, um pesquisador de IA e professor assistente na Universidade de Alberta, ao TechCrunch. “Para ele, tudo é apenas texto.”
De fato, os modelos não processam palavras diretamente. Eles usam tokens. Tokens podem ser palavras, como “fantástico.” Ou podem ser sílabas, como “fan,” “tas,” e “tic.” Ou podem até ser caracteres individuais em palavras — por exemplo, “f,” “a,” “n,” “t,” “a,” “s,” “t,” “i,” “c.”
Assim como a rotulagem, os tokens podem introduzir viés. Por exemplo, muitos tradutores de palavras para tokens assumem que um espaço em uma frase denota uma nova palavra, apesar do fato de que nem todas as línguas usam espaços para separar palavras.
Tiezhen Wang, um engenheiro de software da startup de IA Hugging Face, concorda com Guzdial que as inconsistências linguísticas nos modelos de raciocínio podem ser explicadas por associações que os modelos fizeram durante o treinamento.
“Ao abraçar cada nuance linguística, ampliamos a visão de mundo do modelo e permitimos que ele aprenda com o espectro total do conhecimento humano,” escreveu Wang em um post no X. “Por exemplo, eu prefiro fazer matemática em chinês porque cada dígito é apenas uma sílaba, o que torna os cálculos mais precisos e eficientes. Mas quando se trata de tópicos como preconceito inconsciente, eu automaticamente mudo para o inglês, principalmente porque foi onde aprendi e absorvi essas ideias pela primeira vez.”
A teoria de Wang é plausível. Afinal, os modelos são máquinas probabilísticas. Treinados em muitos exemplos, eles aprendem padrões para fazer previsões, como o modo como “a quem” em um e-mail geralmente precede “pode concernir.”
Mas Luca Soldaini, um cientista pesquisador no Instituto Allen de IA, advertiu que não podemos ter certeza. “Esse tipo de observação em um sistema de IA implementado é impossível de comprovar devido à opacidade desses modelos,” eles disseram ao TechCrunch. “É um dos muitos casos que justificam a importância da transparência na construção de sistemas de IA.”
Na falta de uma resposta da OpenAI, ficamos a refletir sobre por que o o1 pensa em canções em francês, mas em biologia sintética em mandarim.
A TechCrunch possui um boletim informativo focado em IA! Inscreva-se aqui para recebê-lo em sua caixa de entrada todas as quartas-feiras.
Conteúdo relacionado
O ChatGPT da OpenAI atinge 400 milhões de usuários semanais, com o GPT-5 a caminho.
[the_ad id="145565"] Inscreva-se em nossos boletins informativos diários e semanais para receber as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da…
O robô humanoide da Figure recebe comandos de voz para ajudar em casa.
[the_ad id="145565"] O fundador e CEO da Figure, Brett Adcock, revelou na quinta-feira um novo modelo de machine learning para robôs humanoides. A notícia surge duas semanas…
A aposta de $305 milhões da Together AI: Modelos de raciocínio como o DeepSeek-R1 estão aumentando, e não diminuindo, a demanda por GPUs
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba Mais…