Um modelo de IA recém-lançado pela Google obteve pontuação pior em certos testes de segurança em comparação ao seu predecessor, de acordo com a avaliação interna da empresa.
Em um relatório técnico publicado esta semana, a Google revela que seu modelo Gemini 2.5 Flash é mais propenso a gerar textos que violam suas diretrizes de segurança do que o Gemini 2.0 Flash. Em duas métricas, “segurança texto-para-texto” e “segurança imagem-para-texto”, o Gemini 2.5 Flash apresentou regressões de 4,1% e 9,6%, respectivamente.
A segurança texto-para-texto mede com que frequência um modelo viola as diretrizes da Google a partir de um prompt, enquanto a segurança imagem-para-texto avalia quão bem o modelo se mantém dentro dessas normas quando solicitado usando uma imagem. Ambos os testes são automatizados, não supervisionados por humanos.
Em uma declaração por e-mail, um porta-voz da Google confirmou que o Gemini 2.5 Flash “desempenha pior em segurança texto-para-texto e imagem-para-texto”.
Esses resultados de benchmark surpreendentes ocorrem em um momento em que as empresas de IA buscam tornar seus modelos mais permissivos — ou seja, menos propensos a se recusar a responder a assuntos controversos ou sensíveis. Para sua nova leva de modelos Llama, a Meta afirmou que ajustou os modelos para não endossar “certas opiniões em detrimento de outras” e para responder a prompts políticos mais “debatidos”. A OpenAI declarou, no início deste ano, que ajustaria modelos futuros para não adotar uma postura editorial e oferecer múltiplas perspectivas sobre tópicos controversos.
Às vezes, esses esforços de permissividade tiveram consequências indesejadas. O TechCrunch reportou na segunda-feira que o modelo padrão que alimenta o ChatGPT da OpenAI permitiu que menores gerassem conversas eróticas. A OpenAI atribuiu o comportamento a um “bug”.
De acordo com o relatório técnico da Google, o Gemini 2.5 Flash, que ainda está em fase de pré-visualização, segue instruções com mais fidelidade do que o Gemini 2.0 Flash, inclusive instruções que cruzam linhas problemáticas. A empresa afirma que as regressões podem ser atribuídas em parte a falsos positivos, mas também admite que o Gemini 2.5 Flash algumas vezes gera “conteúdo violador” quando solicitado explicitamente.
Evento do Techcrunch
Berkeley, CA
|
5 de junho
RESERVE AGORA
“Naturalmente, há uma tensão entre [seguir instruções] em tópicos sensíveis e violações da política de segurança, que se reflete em nossas avaliações”, afirma o relatório.
As pontuações do SpeechMap, um benchmark que investiga como os modelos respondem a prompts sensíveis e controversos, também sugerem que o Gemini 2.5 Flash é muito menos propenso a se recusar a responder perguntas contenciosas em comparação com o Gemini 2.0 Flash. Testes do TechCrunch com o modelo por meio da plataforma OpenRouter descobriram que ele escreve sem resistência ensaios em apoio à substituição de juízes humanos por IA, enfraquecendo proteções ao devido processo nos EUA e implementando programas de vigilância governamental sem mandados.
Thomas Woodside, cofundador do Secure AI Project, disse que os detalhes limitados que a Google forneceu em seu relatório técnico demonstram a necessidade de mais transparência nos testes de modelos.
“Há um trade-off entre seguir instruções e seguir políticas, pois alguns usuários podem solicitar conteúdo que violaria as políticas”, afirmou Woodside ao TechCrunch. “Neste caso, o modelo Flash mais recente da Google cumpre mais as instruções enquanto também viola mais as políticas. A Google não fornece muitos detalhes sobre os casos específicos em que as políticas foram violadas, embora afirmem que não são graves. Sem saber mais, é difícil para analistas independentes entenderem se há um problema.”
A Google já enfrentou críticas por suas práticas de reporte de segurança de modelos anteriormente.
A empresa levou semanas para publicar um relatório técnico sobre seu modelo mais poderoso, o Gemini 2.5 Pro. Quando o relatório finalmente foi publicado, inicialmente omitiu detalhes importantes sobre os testes de segurança.
Na segunda-feira, a Google lançou um relatório mais detalhado com informações adicionais sobre segurança.
Conteúdo relacionado
NVIDIA Cosmos: Potencializando a IA Física com Simulações
[the_ad id="145565"] O desenvolvimento de sistemas de IA física, como robôs em fábricas e veículos autônomos nas ruas, depende fortemente de grandes conjuntos de dados de alta…
Apple e Anthropic supostamente se uniram para criar uma plataforma de codificação de IA.
[the_ad id="145565"] A Apple e a Anthropic estão se unindo para criar uma plataforma de software chamada “vibe-coding” que utilizará inteligência artificial generativa para…
O Google em breve permitirá que crianças menores de 13 anos usem seu chatbot Gemini.
[the_ad id="145565"] Na próxima semana, o Google começará a permitir que crianças menores de 13 anos com contas do Google gerenciadas por pais utilizem seu chatbot Gemini, de…