Participe das nossas newsletters diárias e semanais para receber as últimas novidades e conteúdos exclusivos sobre a cobertura de IA líder da indústria. Saiba mais
A Patronus AI anunciou hoje o lançamento do que chama de o primeiro modelo de linguagem multimodal como juiz na indústria (MLLM-as-a-Judge), uma ferramenta projetada para avaliar sistemas de IA que interpretam imagens e produzem texto.
A nova tecnologia de avaliação tem como objetivo ajudar os desenvolvedores a detectar e mitigar alucinações e problemas de confiabilidade em aplicações de IA multimodal. O gigante do comércio eletrônico Etsy já implementou a tecnologia para verificar a precisão das legendas para imagens de produtos em seu mercado de produtos feitos à mão e vintage.
“Estamos muito empolgados em anunciar que o Etsy é um de nossos clientes de lançamento”, disse Anand Kannappan, cofundador da Patronus AI, em uma entrevista exclusiva ao VentureBeat. “Eles têm centenas de milhões de itens em seu mercado online para produtos feitos à mão e vintage que as pessoas estão criando ao redor do mundo. Uma das coisas que a equipe de IA deles queria aproveitar na IA generativa era a capacidade de auto-gerar legendas de imagens e garantir que, à medida que escalassem por toda a sua base de usuários global, as legendas geradas fossem, em última análise, corretas.”
Por que o Gemini do Google alimenta o novo juiz de IA em vez do OpenAI
A Patronus construiu seu primeiro MLLM-as-a-Judge, chamado Judge-Image, no modelo Gemini do Google após extensa pesquisa comparando-o a alternativas como o GPT-4V do OpenAI.
“Tivemos a tendência de ver uma leve preferência pela egocentricidade com o GPT-4V, enquanto vimos que o Gemini era menos tendencioso nesses aspectos e tinha uma abordagem mais equitativa para julgar diferentes tipos de pares de entrada-saída,” explicou Kannappan. “Isso foi visto na distribuição de pontuação uniforme entre as diferentes fontes que eles analisaram.”
A pesquisa da empresa revelou outro insight surpreendente sobre avaliação multimodal. Ao contrário das avaliações apenas de texto, onde o raciocínio em várias etapas geralmente melhora o desempenho, Kannappan observou que isso “tipicamente não aumenta, na verdade, o desempenho do juiz MLLM” para avaliações baseadas em imagem.
O Judge-Image fornece avaliadores prontos para uso que avaliam legendas de imagens em múltplos critérios, incluindo detecção de alucinação de legenda, reconhecimento de objetos primários e não primários, precisão de localização de objetos e detecção e análise de texto.
Além do varejo: como equipes de marketing e escritórios de advocacia podem se beneficiar da avaliação de imagem da IA
Enquanto o Etsy representa um cliente de destaque no comércio eletrônico, a Patronus vê aplicações que se estendem muito além do varejo.
Essas incluem “equipes de marketing em empresas que estão geralmente procurando escalar a criação de descrições e legendas contra novos blocos de design, especialmente design de marketing, mas também design de produtos,” disse Kannappan.
Ele também destacou aplicações para empresas que lidam com processamento de documentos: “Grandes empresas como empresas de serviços de risco e escritórios de advocacia normalmente podem ter equipes de engenharia que estão usando tecnologia relativamente legada para extrair diferentes tipos de informações de PDFs, a fim de resumir o conteúdo dentro de documentos maiores.”
À medida que a IA se torna cada vez mais crítica para os processos de negócios, muitas empresas enfrentam o dilema entre construir ou comprar ferramentas de avaliação. Kannappan argumenta que terceirizar a avaliação de IA faz sentido estratégico e econômico.
“À medida que trabalhamos com equipes, [descobrimos que] muitas pessoas podem começar com algo para ver se conseguem desenvolver algo internamente, e então percebem que, uma, não é essencial para sua proposta de valor ou o produto que estão desenvolvendo. E dois, é um problema muito desafiador, tanto do ponto de vista da IA quanto da infraestrutura,” disse ele.
Isso se aplica particularmente a sistemas multimodais, onde falhas podem ocorrer em vários pontos do processo. “Quando você está lidando com sistemas RAG ou agentes, ou mesmo sistemas de IA multimodal, estamos vendo que falhas acontecem em todas as partes do sistema,” observou Kannappan.
Como a Patronus planeja lucrar enquanto compete com gigantes da tecnologia
A Patronus oferece múltiplos níveis de preços, começando com uma opção gratuita que permite aos usuários experimentarem a plataforma até certos limites de volume. Além desse limite, os clientes pagam conforme usam os avaliadores ou podem entrar em contato com a equipe de vendas para arranjos empresariais com recursos personalizados e preços sob medida.
Apesar de usar o modelo Gemini do Google como sua base, a empresa se posiciona como complementar e não competitiva com provedores de modelos fundamentais como Google, OpenAI e Anthropic.
“Não vemos necessariamente a tecnologia que construímos ou as soluções que desenvolvemos como concorrentes com empresas fundamentais, mas sim como ferramentas complementares e novas poderosas no conjunto de ferramentas que, em última análise, ajudam as pessoas a desenvolver sistemas LLM melhores, em vez de LLMs propriamente ditos,” disse Kannappan.
Avaliação de áudio chegando em seguida à medida que a Patronus expande a supervisão multimodal
A anúncio de hoje representa um passo na estratégia mais ampla da Patronus para avaliação de IA em diferentes modalidades. A empresa planeja expandir além das imagens para a avaliação de áudio em breve.
Esse roteiro está alinhado com o que Kannappan descreve como a “visão de pesquisa da empresa voltada para supervisão escalável” — desenvolver mecanismos de avaliação que possam acompanhar sistemas de IA cada vez mais sofisticados.
“Continuamos a desenvolver novos sistemas, produtos, estruturas, métodos que, em última análise, sejam igualmente capazes que os sistemas inteligentes que pretendemos ter supervisão no longo prazo,” disse ele.
À medida que as empresas correm para implantar sistemas de IA que podem interpretar imagens, extrair texto de documentos e gerar conteúdo visual, o risco de imprecisões, alucinações e preconceitos cresce. A Patronus está apostando que, mesmo à medida que os modelos fundamentais melhoram, os desafios de avaliar sistemas complexos de IA multimodal permanecerão — exigindo ferramentas especializadas que possam servir como juízes imparciais de saídas de IA cada vez mais semelhantes às humanas. No mundo de alto risco da implantação comercial de IA, esses juízes digitais podem se mostrar tão valiosos quanto os modelos que avaliam.
Insights diários sobre casos de uso empresarial com VB Daily
Se você quiser impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós trazemos as novidades sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para um retorno máximo sobre o investimento.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.
Conteúdo relacionado
SoftBank compra fábrica antiga da Sharp por US$ 676 milhões para sua colaboração com a OpenAI no Japão
[the_ad id="145565"] A SoftBank avança em suas ambições de estabelecer uma operação significativa de IA em seu mercado natal, o Japão, tanto de forma independente quanto em…
Sesame, the startup behind the viral virtual assistant Maya, launches its core AI model in Portuguese
[the_ad id="145565"] A empresa de IA Sesame lançou o modelo base que alimenta Maya, o impressionante assistente de voz realista. O modelo, que possui 1 bilhão de parâmetros…
A palestra principal da GTC da Nvidia enfatizará a IA em vez dos jogos.
[the_ad id="145565"] A Conferência de Tecnologia em GPU da Nvidia (GTC) acontece na próxima semana em San Jose, não muito longe de San Francisco, que está hospedando…