Bolt42

A OpenAI acaba de anunciar GPT-4o, seu novo modelo principal.

Com o GPT-4o, agora você pode interagir com o ChatGPT através de “qualquer combinação de texto, áudio e imagem”, segundo a OpenAI.

O que realmente diferencia o GPT-4o é o fato de ele ter sido treinado do início ao fim em texto, visão e áudio juntos. (O “o” em seu nome significa “omni”.)

Esse treinamento multimodal unificado permite que o GPT-4o compreenda nuances e contextos que se perdem ao usar modelos separados para cada tipo de entrada/saída, como no Modo de Voz do ChatGPT.

O modelo também iguala as capacidades de texto e código do GPT-4, enquanto melhora muito o desempenho em idiomas não ingleses. E supera os modelos existentes em sua capacidade de entender imagens e áudio.

Durante o evento de anúncio, a OpenAI demonstrou o que o GPT-4o pode fazer.

Em um caso, engenheiros da OpenAI tiveram uma conversa ao vivo e em tempo real com o GPT-4o, com muito pouca latência.

(A OpenAI afirma que o modelo responde a entradas de áudio em até 232 milissegundos — aproximadamente o mesmo tempo de resposta que um humano em uma conversa.)

Durante as conversas em áudio, o modelo também foi capaz de exibir uma gama de tons e reagir naturalmente a interrupções, retomando de onde parou — assim como um humano faria em uma conversa.

Em outra demonstração, os engenheiros transmitiram vídeo para o modelo em tempo real.

Um dos engenheiros transmitiu-se escrevendo um problema de matemática e, em seguida, pediu ao GPT-4o que oferecesse conselhos sobre como resolvê-lo enquanto escrevia.

O modelo também mostrou capacidades impressionantes ao falar em diferentes idiomas, conversando fluentemente em italiano com a CTO Mira Murati em um ponto durante a demonstração.

O que você precisa saber sobre este novo e impressionante modelo?

Eu obtive a resposta do fundador e CEO do Marketing AI Institute, Paul Roetzer, no Episódio 98 de The Artificial Intelligence Show.

Multimodal desde o início

A OpenAI afirma que as capacidades de texto e imagem já começaram a ser implementadas. Mas o modo de voz do GPT-4o ainda está em versão alfa. Ele será disponibilizado para usuários do ChatGPT Plus “nas próximas semanas”.

Uma vez ativo, o modo de voz do GPT-4o será radicalmente diferente do que existe hoje.

Atualmente, a voz funciona através de um pipeline de modelos separados. Um transcreve sua fala em texto, outro processa esse texto e, em seguida, outro o converte de volta para áudio.

Esse processo em várias etapas significa que a IA perde muitas informações ao longo do caminho.

O GPT-4o resolve isso combinando texto, visão e áudio em um único modelo. Todas as entradas e saídas são tratadas por uma única rede neural.

“Essas coisas estão agora sendo treinadas em todas essas modalidades desde o início, o que expande rapidamente o que elas serão capazes de fazer,” diz Roetzer.

Isso parece ser um movimento em direção a um assistente de IA único e geralmente útil com o qual você pode interagir de forma contínua em sua vida cotidiana.

O gratuito é um grande negócio

O que é igualmente empolgante é que o GPT-4o agora está disponível para todos os usuários do ChatGPT, não apenas para usuários pagos. (Embora os usuários do ChatGPT Plus tenham limites de uso mais altos para o novo modelo.)

Isso é importante.

Muitas pessoas ainda estão usando apenas a versão gratuita do ChatGPT, que, até este anúncio, incluía uma IA muito inferior e capacidades limitadas.

“Sempre que estou no palco, pergunto ao público quem usou o ChatGPT, todas as mãos se levantam,” diz Roetzer. “Mas quem tem a versão paga? A maioria das mãos desce.”

Embora uma IA gratuita e poderosa seja ótima, Roetzer adverte que o acesso por si só não é suficiente. As pessoas precisam de alfabetização em IA para realmente desbloquear seu potencial.

“Apenas fornecer às pessoas ferramentas mais poderosas não significa que elas saberão como usá-las,” diz ele.

“É muito raro encontrar pessoas que são usuários avançados dessas ferramentas, que realmente construíram suas próprias bibliotecas de prompt, que empurraram os limites do que são capazes.”

Ainda assim, colocar o GPT-4o em milhões de mãos gratuitamente certamente acelerará a adoção e os casos de uso — especialmente entre empresas e profissionais.




Bolt42