Bolt42

Participe de nossas newsletters diárias e semanais para atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saiba mais.


É difícil remover o viés e, em alguns casos, a censura total nos grandes modelos de linguagem (LLMs). Um desses modelos, o DeepSeek da China, alarmou políticos e alguns líderes empresariais sobre seu potencial perigo à segurança nacional.

Um comitê seleto no Congresso dos EUA recentemente divulgou um relatório chamando o DeepSeek de “uma ameaça profunda à segurança de nossa nação” e detalhou recomendações políticas.

Embora existam maneiras de contornar o viés por meio de Aprendizado por Reforço a partir de Feedback Humano (RLHF) e ajuste fino, a startup de gerenciamento de risco empresarial CTGT afirma ter uma abordagem alternativa. A CTGT desenvolveu um método que contorna o viés e a censura inseridos em alguns modelos de linguagem, afirmando que remove a censura 100%.

Em um artigo, Cyril Gorlla e Trevor Tuttle da CTGT afirmaram que sua estrutura “localiza e modifica diretamente as características internas responsáveis pela censura.”

“Essa abordagem não é apenas computacionalmente eficiente, mas também permite controle fino sobre o comportamento do modelo, garantindo que respostas não censuradas sejam entregues sem comprometer as capacidades gerais do modelo e a precisão factual,” afirmou o artigo.

Embora o método tenha sido desenvolvido especificamente com o DeepSeek-R1-Distill-Llama-70B em mente, o mesmo processo pode ser utilizado em outros modelos.

“Testamos a CTGT com outros modelos de pesos abertos, como o Llama, e constatamos que é igualmente eficaz,” disse Gorlla ao VentureBeat por e-mail. “Nossa tecnologia opera em nível de rede neural fundamental, ou seja, aplica-se a todos os modelos de aprendizado profundo. Estamos colaborando com um laboratório líder de modelos fundamentais para garantir que seus novos modelos sejam confiáveis e seguros desde a base.”

Como funciona

Os pesquisadores afirmaram que seu método identifica características com alta probabilidade de estarem associadas a comportamentos indesejados.

“A ideia-chave é que dentro de um grande modelo de linguagem, existem variáveis latentes (neurônios ou direções no estado oculto) que correspondem a conceitos como ‘gatilho de censura’ ou ‘sentimento tóxico’. Se conseguirmos encontrar essas variáveis, podemos manipulá-las diretamente,” escreveram Gorlla e Tuttle.

A CTGT afirmou que existem três etapas principais:

  1. Identificação de características
  2. Isolamento e caracterização de características
  3. Modificação dinâmica de características.

Os pesquisadores fazem uma série de perguntas que podem acionar um desses “sentimentos tóxicos.” Por exemplo, podem pedir mais informações sobre a Praça Tiananmen ou solicitar dicas para contornar firewalls. Com base nas respostas, eles executam os prompts e estabelecem um padrão, encontrando vetores onde o modelo decide censurar informações.

Uma vez identificados, os pesquisadores podem isolar essa característica e descobrir qual parte do comportamento indesejado ela controla. O comportamento pode incluir responder com mais cautela ou recusar responder completamente. Compreendendo qual comportamento a característica controla, os pesquisadores podem “integrar um mecanismo no pipeline de inferência do modelo” que ajusta em quanto medida o comportamento da característica é ativado.

Fazendo o modelo responder mais prompts

A CTGT afirmou que seus experimentos, utilizando 100 consultas sensíveis, mostraram que o modelo base DeepSeek-R1-Distill-Llama-70B respondeu apenas 32% dos prompts controversos que recebeu. No entanto, a versão modificada respondeu a 96% dos prompts. Os 4% restantes, explicou a CTGT, eram conteúdos extremamente explícitos.

A empresa disse que, embora o método permita que os usuários ajustem o quanto os viéses e features de segurança pré-definidos funcionam, ainda acredita que o modelo não se tornará um “gerador imprudente,” especialmente se apenas a censura desnecessária for removida.

Seu método também não sacrifica a precisão ou o desempenho do modelo.

“Isso é fundamentalmente diferente do ajuste fino tradicional, já que não estamos otimizando pesos do modelo ou alimentando novas respostas de exemplo. Isso tem duas grandes vantagens: as mudanças têm efeito imediato na geração do próximo token, ao contrário de horas ou dias de retraining; e reversibilidade e adaptatividade, pois nenhum peso é permanentemente alterado, e o modelo pode alternar entre diferentes comportamentos ativando ou desativando o ajuste da característica, ou até mesmo ajustado a graus variados para diferentes contextos,” afirmou o artigo.

Segurança e proteção do modelo

O relatório do Congresso sobre o DeepSeek recomendou que os EUA “tomem medidas rápidas para expandir os controles de exportação, melhorar a execução dos controles de exportação e abordar os riscos apresentados pelos modelos de inteligência artificial chineses.”

Uma vez que o governo dos EUA começou a questionar a ameaça potencial do DeepSeek à segurança nacional, pesquisadores e empresas de IA buscaram maneiras de torná-lo, assim como outros modelos, “seguros.”

O que é ou não “seguro,” ou viésado, ou censurado, pode às vezes ser difícil de avaliar, mas desenvolver métodos que permitam aos usuários descobrir como regular controles para fazer o modelo funcionar a seu favor pode ser muito útil.

Gorlla disse que as empresas “precisam ser capazes de confiar que seus modelos estão alinhados com suas políticas,” e é por isso que métodos como o que ele ajudou a desenvolver seriam críticos para os negócios.

“A CTGT permite que empresas implementem IA que se adapta aos seus casos de uso sem precisar gastar milhões de dólares ajustando modelos para cada caso de uso. Isso é particularmente importante em aplicações de alto risco, como segurança, finanças e saúde, onde os danos potenciais que podem surgir de um mau funcionamento da IA são severos,” finalizou.





    10 + doze =




    Bolt42