A Cohere for AI, o laboratório de pesquisa sem fins lucrativos da startup de IA Cohere, lançou esta semana um modelo de IA multimodal “aberto”, chamado Aya Vision, que o laboratório afirma ser de classe mundial.
Aya Vision pode realizar tarefas como escrever legendas para imagens, responder perguntas sobre fotos, traduzir textos e gerar resumos em 23 idiomas principais. A Cohere, que também está disponibilizando o Aya Vision gratuitamente através do WhatsApp, chamou isso de “um passo significativo para tornar os avanços técnicos acessíveis a pesquisadores em todo o mundo”.
“Embora a IA tenha feito progressos significativos, ainda há uma grande lacuna em quão bem os modelos desempenham em diferentes idiomas — uma que se torna ainda mais perceptível em tarefas multimodais que envolvem texto e imagens”, escreveu a Cohere em um postagem no blog. “O Aya Vision tem como objetivo ajudar a fechar essa lacuna.”
Aya Vision vem em algumas versões: Aya Vision 32B e Aya Vision 8B. A mais sofisticada das duas, Aya Vision 32B, estabelece uma “nova fronteira”, disse a Cohere, superando modelos duas vezes o seu tamanho, incluindo o Meta’s Llama-3.2 90B Vision em certos benchmarks de compreensão visual. Enquanto isso, o Aya Vision 8B obtém melhores resultados em algumas avaliações do que modelos dez vezes maiores, segundo a Cohere.
Ambos os modelos estão disponíveis na plataforma de desenvolvimento de IA Hugging Face sob uma licença Creative Commons 4.0 com o adendo de uso aceitável da Cohere. Eles não podem ser usados para aplicações comerciais.
A Cohere informou que o Aya Vision foi treinado usando um “conjunto diversificado” de dados em inglês, que o laboratório traduziu e utilizou para criar anotações sintéticas. Anotações, também conhecidas como marcadores ou rótulos, ajudam os modelos a entender e interpretar dados durante o processo de treinamento. Por exemplo, uma anotação para treinar um modelo de reconhecimento de imagem pode assumir a forma de marcações em torno de objetos ou legendas que se referem a cada pessoa, lugar ou objeto representado em uma imagem.

O uso de anotações sintéticas pela Cohere — ou seja, anotações geradas por IA — está em alta. Apesar de seus potenciais inconvenientes, concorrentes como a OpenAI estão cada vez mais aproveitando dados sintéticos para treinar modelos à medida que o estoque de dados do mundo real se esgota. A empresa de pesquisa Gartner estima que 60% dos dados utilizados para projetos de IA e análise no ano passado foram criados sinteticamente.
De acordo com a Cohere, treinar o Aya Vision com anotações sintéticas permitiu ao laboratório usar menos recursos enquanto atingia um desempenho competitivo.
“Isso demonstra nosso foco crítico na eficiência e em [fazer] mais usando menos poder computacional,” escreveu a Cohere em seu blog. “Isso também proporciona um maior apoio à comunidade de pesquisa, que muitas vezes tem acesso mais limitado a recursos computacionais.”
Juntamente com o Aya Vision, a Cohere também lançou um novo conjunto de benchmarks, o AyaVisionBench, projetado para avaliar as habilidades de um modelo em tarefas de “visão-linguagem”, como identificar diferenças entre duas imagens e converter capturas de tela em código.
A indústria de IA está passando pelo que alguns chamam de “crise de avaliação”, consequência da popularização de benchmarks que fornecem pontuações agregadas que correlacionam mal com a proficiência em tarefas que a maioria dos usuários de IA se importa. A Cohere afirma que o AyaVisionBench é um passo em direção à retificação disso, fornecendo uma estrutura “ampla e desafiadora” para avaliar a compreensão multimodal e cross-linguística de um modelo.
Com sorte, esse é realmente o caso.
“[O] conjunto de dados serve como um benchmark robusto para avaliar modelos de visão-linguagem em configurações multilíngues e do mundo real,” escreveram os pesquisadores da Cohere em uma postagem no Hugging Face. “Tornamos este conjunto de avaliação disponível para a comunidade de pesquisa para avançar nas avaliações multimodais multilíngues.”
Conteúdo relacionado
Relatório de uso de IA da SimilarWeb revela 5 descobertas surpreendentes, incluindo crescimento explosivo em ferramentas de programação.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre coberturas líder de mercado em IA. Saiba Mais…
A Revolução da Interoperabilidade: Como o MCP Está se Tornando a Linguagem Universal da IA Empresarial
[the_ad id="145565"] Here's the rewritten content in Portuguese with the original HTML tags preserved: <div> <div id="boilerplate_2682874" class="post-boilerplate…
O DJ de IA do Spotify agora permite que você use comandos de voz para personalizar suas músicas
[the_ad id="145565"] Com o objetivo de tornar seu DJ de IA mais interativo, o Spotify está atualizando o recurso para permitir que os usuários solicitem música ou mudem o clima…