ChatGPT agora entende vídeo em tempo real, sete meses após a primeira demonstração da OpenAI.

A OpenAI finalmente lançou as capacidades de vídeo em tempo real para o ChatGPT, que foram demonstradas há quase sete meses.

Na quinta-feira, durante uma transmissão ao vivo, a empresa anunciou que o Modo de Voz Avançado, seu recurso de conversa semelhante a humano para o ChatGPT, agora está recebendo visão. Com o aplicativo ChatGPT, usuários assinantes do ChatGPT Plus, Team ou Pro podem direcionar seus telefones para objetos e ter respostas do ChatGPT em quase tempo real.

O Modo de Voz Avançado com visão também pode entender o que está na tela de um dispositivo por meio de compartilhamento de tela. Ele pode explicar diversos menus de configuração, por exemplo, ou dar sugestões para um problema de matemática.

Para acessar o Modo de Voz Avançado com visão, toque no ícone de voz ao lado da barra de chat do ChatGPT, em seguida, toque no ícone de vídeo no canto inferior esquerdo, o que iniciará o vídeo. Para compartilhar a tela, toque no menu de três pontos e selecione “Compartilhar Tela”.

O lançamento do Modo de Voz Avançado com visão começará na quinta-feira, segundo a OpenAI, e será concluído na próxima semana. No entanto, nem todos os usuários terão acesso. A OpenAI afirma que os assinantes do ChatGPT Enterprise e Edu não terão o recurso até janeiro, e que não há um cronograma para usuários do ChatGPT na UE, Suíça, Islândia, Noruega ou Liechtenstein.

Em uma demonstração recente no “60 Minutes” da CNN, o presidente da OpenAI, Greg Brockman, fez o Modo de Voz Avançado com visão questionar Anderson Cooper sobre suas habilidades de anatomia. Enquanto Cooper desenhava partes do corpo em um quadro, o ChatGPT podia “entender” o que ele estava desenhando.

Modo de Voz Avançado da OpenAI com visão — Funcionários da OpenAI demonstram o Modo de Voz Avançado com visão do ChatGPT durante uma transmissão ao vivo.Créditos da Imagem:OpenAI

“A localização está perfeita,” disse o ChatGPT. “O cérebro está bem ali na cabeça. Quanto à forma, é um bom começo. O cérebro é mais oval.”

Na mesma demonstração, o Modo de Voz Avançado com visão cometeu um erro em um problema de geometria, sugerindo que está suscetível a alucinações.

O Modo de Voz Avançado com visão foi adiado várias vezes — segundo relatos, em parte porque a OpenAI anunciou o recurso muito antes de estar pronto para produção. Em abril, a OpenAI prometeu que o Modo de Voz Avançado seria lançado para os usuários “dentro de algumas semanas.” Meses depois, a empresa informou que precisava de mais tempo.

Quando o Modo de Voz Avançado finalmente chegou no início do outono para alguns usuários do ChatGPT, ele não tinha o componente de análise visual. Na semana que antecedeu o lançamento de quinta-feira, a OpenAI concentrou sua atenção em trazer a experiência de Modo de Voz Avançado somente de voz para mais plataformas e usuários na UE.

Concorrentes como Google e Meta estão trabalhando em capacidades semelhantes para seus respectivos produtos de chatbot. Nesta semana, o Google disponibilizou sua funcionalidade de IA conversacional de vídeo em tempo real, Project Astra, para um grupo de “testadores de confiança” no Android.

Além do Modo de Voz Avançado com visão, a OpenAI lançou na quinta-feira um “Modo Papai Noel” festivo, que adiciona a voz do Papai Noel como uma voz pré-definida no ChatGPT. Os usuários podem encontrá-lo tocando ou clicando no ícone de floco de neve no aplicativo ChatGPT ao lado da barra de prompt.

Conteúdo relacionado

BusinessInteligência artificial

Tudo o que você precisa saber sobre a Amazon Nova Act: o novo SDK de agente de IA que desafia OpenAI, Microsoft e Salesforce.

[the_ad id="145565"] Inscreva-se em nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA líder no setor. Saiba Mais…

BusinessInteligência artificial

A Microsoft supostamente reduz seus planos de data center

[the_ad id="145565"] A Microsoft reduziu seus projetos de data centers ao redor do mundo, segundo a Bloomberg, sugerindo que a empresa está cautelosa em expandir sua…

BusinessInteligência artificial

Runway, conhecida por seus modelos de IA para geração de vídeo, arrecada R$ 308 milhões.

[the_ad id="145565"] Runway, uma startup que desenvolve uma variedade de modelos de IA generativa para a produção de mídia, incluindo modelos de geração de vídeo, levantou US$…