Bolt42

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder do setor. Saiba mais


Embora muitos riscos e controles existentes possam ser aplicados à IA generativa, a tecnologia inovadora possui muitas nuances que exigem novas táticas.

Os modelos são suscetíveis a alucinações, ou seja, à produção de conteúdo impreciso. Outros riscos incluem o vazamento de dados sensíveis por meio da saída de um modelo, contaminação de modelos que permitem a manipulação de prompts e preconceitos como consequência da má seleção de dados de treinamento ou fine-tuning e treinamento mal controlados.

Por fim, é necessário expandir a detecção e resposta cibernética convencional para monitorar os abusos de IA — e a IA deve, por sua vez, ser usada para vantagem defensiva, disse Phil Venables, CISO da Google Cloud.

“O uso seguro, protegido e confiável da IA abrange um conjunto de técnicas que muitas equipes historicamente não trouxeram juntas”, observou Venables em uma sessão virtual no recente Cloud Security Alliance Global AI Symposium.

Lições aprendidas no Google Cloud

Venables defendeu a importância de oferecer controles e estruturas comuns para que cada instância ou implementação de IA não comece tudo do zero.

“Lembre-se de que o problema é um processo de negócio de ponta a ponta ou um objetivo de missão, não apenas um problema técnico no ambiente”, disse ele.

Quase todos já estão cientes de muitos dos riscos associados ao potencial abuso de dados de treinamento e dados ajustados. “Mitigar os riscos de contaminação de dados é vital, assim como garantir que os dados sejam adequados para outros riscos”, disse Venables.

É importante que as empresas garantam que os dados utilizados para treinamento e ajuste sejam sanitizados e protegidos, e que a linhagem ou proveniência desses dados seja mantida com “forte integridade”.

“Agora, obviamente, você não pode apenas desejar que isso seja verdade”, reconheceu Venables. “Você realmente precisa fazer o trabalho de curar e rastrear o uso dos dados.”

Isso exige a implementação de controles e ferramentas específicos com segurança incorporada que atuem juntas para fornecer treinamento de modelos, fine-tuning e teste. Isso é particularmente importante para garantir que os modelos não sejam adulterados, seja no software, nos pesos ou em qualquer um de seus outros parâmetros, observou Venables.

“Se não cuidarmos disso, nos expomos a várias formas diferentes de riscos de backdoor que podem comprometer a segurança e a proteção do processo de negócios ou missão implantada”, disse ele.

Filtragem para combater a injeção de prompts

Outro grande problema é o abuso de modelos por parte de terceiros. Os modelos podem ser contaminados por meio de dados de treinamento ou outros parâmetros que os levem a se comportar contra controles mais amplos, disse Venables. Isso pode incluir táticas adversariais, como manipulação de prompts e subversão.

Venables apontou que há muitos exemplos de pessoas manipulando prompts, tanto direta quanto indiretamente, para causar resultados não intencionais diante de “modelos defendidos de forma ingênua ou totalmente desprotegidos.”

Isso pode ser texto embutido em imagens ou outras entradas em modelos unidimensionais ou multimodais, com prompts problemáticos “perturbando a saída”.

“Muito da atenção que chama a atenção é gerada por conteúdo inseguro, e algumas delas podem ser bastante engraçadas”, disse Venables.

É importante garantir que as entradas sejam filtradas para uma variedade de objetivos de confiança, segurança e proteção, disse ele. Isso deve incluir “log de monitoramento” e observabilidade abrangente, bem como controles de acesso rigorosos que sejam mantidos sobre modelos, código, dados e dados de teste também.

“Os dados de teste podem influenciar o comportamento do modelo de maneiras interessantes e potencialmente arriscadas”, disse Venables.

Controlando a saída, também

Usuários que fazem os modelos se comportarem mal indicam a necessidade de gerenciar não apenas a entrada, mas também a saída, apontou Venables. As empresas podem criar filtros e controles de saída — ou “disjuntores” — em torno de como um modelo pode manipular dados ou acionar processos físicos.

“Não se trata apenas de comportamento induzido por adversários, mas também de comportamento acidental do modelo”, disse Venables.

As organizações devem monitorar e abordar vulnerabilidades de software na própria infraestrutura de suporte, aconselhou Venables. Plataformas de ponta a ponta podem controlar os dados e o ciclo de vida do software e ajudar a gerenciar o risco operacional da integração da IA em processos e aplicações críticos para negócios e missões.

“No final das contas, trata-se de mitigar os riscos operacionais das ações da saída do modelo, em essência, para controlar o comportamento do agente, a fim de fornecer profundidade defensiva contra ações não intencionais”, disse Venables.

Ele recomendou a utilização de sandboxing e a imposição do princípio do menor privilégio para todas as aplicações de IA. Os modelos devem ser governados e protegidos e rigorosamente blindados através de filtros ou construções API de monitoramento independente para validar e regular comportamento. As aplicações também devem ser executadas em cargas de lockdown e as empresas precisam focar em observabilidade e registro de ações.

No final, “trata-se de sanitizar, proteger e governar seus dados de treinamento, ajuste e teste. Trata-se de impor controles de acesso rigorosos sobre os modelos, os dados, o software e a infraestrutura implantada. Trata-se de filtrar entradas e saídas para e a partir desses modelos, e finalmente, garantir que você está utilizando more sandboxing em algumas aplicações em uma estrutura de riscos e controles que oferece defesa em profundidade.”



    4 × dois =




    Bolt42