Bolt42

A Nvidia apresentou um protótipo de avatar de IA na CES 2025 que habita a área de trabalho do seu PC. O assistente de IA, R2X, tem a aparência de um personagem de videogame e pode ajudá-lo a navegar pelos aplicativos do seu computador.

O avatar R2X é renderizado e animado usando os modelos de IA da Nvidia, e os usuários podem executar o avatar em LLMs populares de sua escolha, como o GPT-4o da OpenAI ou o Grok da xAI. Os usuários podem interagir com o R2X por meio de texto e voz, enviar arquivos para processamento ou até mesmo permitir que o assistente de IA veja o que está acontecendo ao vivo na sua tela ou câmera.

Empresas de tecnologia estão criando muitos avatares de IA recentemente, não apenas em videogames, mas também para clientes empresariais e de consumo. As primeiras demonstrações são estranhas, mas alguns acreditam que esses avatares representam uma interface promissora para assistentes de IA. Com o R2X, a Nvidia está tentando combinar capacidades gerativas de videogame com LLMs de ponta para criar um assistente de IA que se pareça e sinta como um humano.

A empresa planeja tornar esses avatares de código aberto na primeira metade de 2025. A Nvidia vê isso como uma nova interface de usuário para desenvolvedores construírem, permitindo que os usuários conectem seus produtos de software de IA favoritos ou até mesmo executem esses avatares localmente.

Semelhante ao recurso Recall da Microsoft (que foi adiado devido a preocupações com a privacidade), o R2X pode tirar captura de tela constante do seu monitor e processá-las por meio de um modelo de IA, embora esse recurso esteja desativado por padrão. Quando ativado, pode oferecer feedback sobre aplicativos em execução no seu computador e, por exemplo, ajudá-lo a resolver uma tarefa de codificação complexa.

O R2X ainda é um protótipo, e até mesmo a Nvidia admite que ainda há alguns bugs a serem resolvidos. Em demonstrações com a TechCrunch, o avatar da Nvidia teve uma sensação de vale inquietante — seu rosto às vezes ficou em posições estranhas, e seu tom parecia um pouco agressivo em certos momentos. E de modo geral, acho um pouco estranho ter um avatar humanoide me observando enquanto trabalho.

O R2X geralmente oferecia instruções úteis e visualizava com precisão o que estava na tela. Mas em um momento, o avatar nos deu instruções incorretas, e mais tarde ele parou de conseguir visualizar a tela. Isso pode ser um problema com o modelo de IA subjacente (neste caso, o GPT-4o), mas o exemplo mostra as limitações dessa tecnologia incipiente.

Em uma demonstração, um líder de produto da Nvidia mostrou como o R2X pode visualizar e auxiliar os usuários com os aplicativos na tela. Especificamente, o R2X nos ajudou a usar o recurso de preenchimento gerativo do Adobe Photoshop. A foto selecionada era de Jensen Huang, CEO da Nvidia, em um restaurante asiático com dois funcionários do local. O avatar da Nvidia “alucina” e deu instruções erradas sobre onde encontrar o recurso de preenchimento gerativo no Photoshop. Ele posteriormente perdeu a capacidade de visualizar a tela, mas após trocar o modelo de IA que usávamos para o Grok da xAI, o avatar recuperou suas habilidades de visualização de tela.

Em outra demonstração, o R2X foi capaz de processar um PDF da área de trabalho e depois responder perguntas sobre ele. Esse processo é alimentado por um recurso local de geração aumentada por recuperação (RAG), que confere a esses avatares de IA a capacidade de extrair informações de um documento e processá-las utilizando o LLM subjacente.

A Nvidia está usando alguns modelos de IA de sua divisão de videogames para potenciar a aparência desses avatares. Para gerar avatares, a Nvidia usa seu algoritmo de rostos neurais RTX. Para automatizar o movimento do rosto, lábios e língua, a Nvidia está utilizando um novo modelo chamado Audio2Face™-3D. Esse modelo parece ter dificuldades em alguns momentos, deixando o rosto dos avatares em posições estranhas.

A empresa também afirma que esses avatares R2X poderão participar de reuniões do Microsoft Teams, atuando como assistentes pessoais.

Um líder de produto da Nvidia afirma que a empresa está trabalhando para conferir a esses avatares de IA habilidades agentivas também, para que o R2X um dia possa realizar ações em sua área de trabalho. Essas habilidades parecem estar longe de se concretizar, e provavelmente exigirão parcerias com empresas de software como Microsoft e Adobe, que estão tentando desenvolver sistemas agentivos semelhantes.

Não está imediatamente claro como a Nvidia está gerando as vozes desses produtos. A voz do R2X ao usar o GPT-4o soa única em comparação com as vozes predefinidas do ChatGPT, enquanto o chatbot Grok da xAI ainda não possui um modo de voz.


    dois + 20 =

    Bolt42