Bolt42

A Microsoft está lançando um projeto de pesquisa para estimar a influência de exemplos de treinamento específicos sobre o texto, imagens e outros tipos de mídia que os modelos de IA generativa criam.

Isso é de acordo com uma vaga de emprego que remonta a dezembro e foi recentemente recirculada no LinkedIn.

Segundo a descrição da vaga, que busca um estagiário de pesquisa, o projeto tentará mostrar que os modelos podem ser treinados de maneira que o impacto de dados específicos — por exemplo, fotos e livros — em suas saídas pode ser “estimado de forma eficiente e útil”.

“As arquiteturas de rede neural atuais são opacas em termos de fornecer fontes para suas gerações, e há […] boas razões para mudar isso,” diz a descrição. “[Uma delas é] oferecer incentivos, reconhecimento e potencialmente pagamento para as pessoas que contribuem com determinados dados valiosos para modelos imprevistos que desejaremos no futuro, assumindo que o futuro nos surpreenda fundamentalmente.”

Geradores de texto, código, imagem, vídeo e música movidos por IA estão no centro de vários processos judiciais de propriedade intelectual contra empresas de IA. Frequentemente, essas empresas treinam seus modelos com enormes quantidades de dados de websites públicos, alguns dos quais são protegidos por direitos autorais. Muitas das empresas argumentam que a doutrina de uso justo protege suas práticas de raspagem e treinamento de dados. Mas os criativos — de artistas a programadores e autores — em grande parte discordam.

A própria Microsoft enfrenta pelo menos dois desafios legais de detentores de direitos autorais.

O New York Times processou o gigante da tecnologia e seu colaborador ocasional, OpenAI, em dezembro, acusando as duas empresas de infringir os direitos autorais do Times ao implantar modelos treinados em milhões de seus artigos. Vários desenvolvedores de software também processaram a Microsoft, alegando que o assistente de codificação AI GitHub Copilot da empresa foi treinado ilegalmente usando seus trabalhos protegidos.

O novo esforço de pesquisa da Microsoft, que a descrição chama de “proveniência em tempo de treinamento”, reportadamente conta com a participação de Jaron Lanier, o renomado tecnólogo e cientista interdisciplinar da Microsoft Research. Em um artigo de opinião de abril de 2023 no The New Yorker, Lanier escreveu sobre o conceito de “dignidade dos dados,” que para ele significa conectar “coisas digitais” com “as pessoas que querem ser reconhecidas por tê-las criado.”

“Uma abordagem de dignidade dos dados rastrearia os contribuintes mais únicos e influentes quando um grande modelo fornece um resultado valioso,” escreveu Lanier. “Por exemplo, se você pedir a um modelo por ‘uma animação dos meus filhos em um mundo de pintura a óleo com gatos falantes em uma aventura,’ então certos pintores a óleo, retratistas de gatos, dubladores e escritores — ou seus legados — poderiam ser calculados como essenciais para a criação da nova obra-prima. Eles seriam reconhecidos e motivados. Eles poderiam até receber um pagamento.”

Não por acaso, já existem várias empresas tentando isso. O desenvolvedor de modelos de IA Bria, que recentemente arrecadou $40 milhões em capital de risco, afirma que “compensa programaticamente” os proprietários de dados de acordo com sua “influência geral.” A Adobe e a Shutterstock também concedem pagamentos regulares a contribuidores de conjuntos de dados, embora os montantes exatos dos pagamentos tendam a ser opacos.

Poucos grandes laboratórios estabeleceram programas de pagamento para contribuidores individuais fora da assinatura de acordos de licenciamento com editores, plataformas e corretores de dados. Em vez disso, eles têm fornecido meios para que os detentores de direitos autorais “optem por não participar” do treinamento. Mas alguns desses processos de opt-out são oneroso, e se aplicam apenas a modelos futuros — não aos que já foram treinados.

É claro que o projeto da Microsoft pode não ser mais do que uma prova de conceito. Há precedentes para isso. Em maio, a OpenAI disse estar desenvolvendo uma tecnologia semelhante que permitiria aos criadores especificar como desejam que suas obras sejam incluídas — ou excluídas — dos dados de treinamento. Mas quase um ano depois, a ferramenta ainda não foi lançada, e muitas vezes não tem sido vista como uma prioridade internamente.

A Microsoft também pode estar tentando ” lavagem de ética ” aqui — ou evitar decisões regulatórias e/ou judiciais disruptivas para seus negócios de IA.

Mas o fato de a empresa estar investigando maneiras de rastrear dados de treinamento é notável à luz das recentes posturas expressas por outros laboratórios de IA sobre o uso justo. Vários dos principais laboratórios, incluindo Google e OpenAI, publicaram documentos de política recomendando que a administração Trump enfraquecesse as proteções de direitos autorais relacionadas ao desenvolvimento de IA. A OpenAI pediu explicitamente ao governo dos EUA que codificasse o uso justo para treinamento de modelos, o que argumenta que liberaria os desenvolvedores de restrições onerosas.

A Microsoft não respondeu imediatamente a um pedido de comentário.


    1 × três =

    Bolt42