Bolt42

Um modelo de IA recém-lançado pela Google obteve pontuação pior em certos testes de segurança em comparação ao seu predecessor, de acordo com a avaliação interna da empresa.

Em um relatório técnico publicado esta semana, a Google revela que seu modelo Gemini 2.5 Flash é mais propenso a gerar textos que violam suas diretrizes de segurança do que o Gemini 2.0 Flash. Em duas métricas, “segurança texto-para-texto” e “segurança imagem-para-texto”, o Gemini 2.5 Flash apresentou regressões de 4,1% e 9,6%, respectivamente.

A segurança texto-para-texto mede com que frequência um modelo viola as diretrizes da Google a partir de um prompt, enquanto a segurança imagem-para-texto avalia quão bem o modelo se mantém dentro dessas normas quando solicitado usando uma imagem. Ambos os testes são automatizados, não supervisionados por humanos.

Em uma declaração por e-mail, um porta-voz da Google confirmou que o Gemini 2.5 Flash “desempenha pior em segurança texto-para-texto e imagem-para-texto”.

Esses resultados de benchmark surpreendentes ocorrem em um momento em que as empresas de IA buscam tornar seus modelos mais permissivos — ou seja, menos propensos a se recusar a responder a assuntos controversos ou sensíveis. Para sua nova leva de modelos Llama, a Meta afirmou que ajustou os modelos para não endossar “certas opiniões em detrimento de outras” e para responder a prompts políticos mais “debatidos”. A OpenAI declarou, no início deste ano, que ajustaria modelos futuros para não adotar uma postura editorial e oferecer múltiplas perspectivas sobre tópicos controversos.

Às vezes, esses esforços de permissividade tiveram consequências indesejadas. O TechCrunch reportou na segunda-feira que o modelo padrão que alimenta o ChatGPT da OpenAI permitiu que menores gerassem conversas eróticas. A OpenAI atribuiu o comportamento a um “bug”.

De acordo com o relatório técnico da Google, o Gemini 2.5 Flash, que ainda está em fase de pré-visualização, segue instruções com mais fidelidade do que o Gemini 2.0 Flash, inclusive instruções que cruzam linhas problemáticas. A empresa afirma que as regressões podem ser atribuídas em parte a falsos positivos, mas também admite que o Gemini 2.5 Flash algumas vezes gera “conteúdo violador” quando solicitado explicitamente.

Evento do Techcrunch

Berkeley, CA
|
5 de junho

RESERVE AGORA

“Naturalmente, há uma tensão entre [seguir instruções] em tópicos sensíveis e violações da política de segurança, que se reflete em nossas avaliações”, afirma o relatório.

As pontuações do SpeechMap, um benchmark que investiga como os modelos respondem a prompts sensíveis e controversos, também sugerem que o Gemini 2.5 Flash é muito menos propenso a se recusar a responder perguntas contenciosas em comparação com o Gemini 2.0 Flash. Testes do TechCrunch com o modelo por meio da plataforma OpenRouter descobriram que ele escreve sem resistência ensaios em apoio à substituição de juízes humanos por IA, enfraquecendo proteções ao devido processo nos EUA e implementando programas de vigilância governamental sem mandados.

Thomas Woodside, cofundador do Secure AI Project, disse que os detalhes limitados que a Google forneceu em seu relatório técnico demonstram a necessidade de mais transparência nos testes de modelos.

“Há um trade-off entre seguir instruções e seguir políticas, pois alguns usuários podem solicitar conteúdo que violaria as políticas”, afirmou Woodside ao TechCrunch. “Neste caso, o modelo Flash mais recente da Google cumpre mais as instruções enquanto também viola mais as políticas. A Google não fornece muitos detalhes sobre os casos específicos em que as políticas foram violadas, embora afirmem que não são graves. Sem saber mais, é difícil para analistas independentes entenderem se há um problema.”

A Google já enfrentou críticas por suas práticas de reporte de segurança de modelos anteriormente.

A empresa levou semanas para publicar um relatório técnico sobre seu modelo mais poderoso, o Gemini 2.5 Pro. Quando o relatório finalmente foi publicado, inicialmente omitiu detalhes importantes sobre os testes de segurança.

Na segunda-feira, a Google lançou um relatório mais detalhado com informações adicionais sobre segurança.


    11 − 1 =

    Bolt42