Alexis Conneau reflete bastante sobre o filme “Ela”. Nos últimos anos, ele se tornou obcecado em transformar a tecnologia de voz fictícia do filme, a Samantha, em realidade.
Conneau até usa uma imagem do personagem de Joaquin Phoenix no filme como seu banner no Twitter.
Com o Modo de Voz Avançado do ChatGPT, um projeto que Conneau iniciou na OpenAI após fazer trabalhos semelhantes no Meta, ele quase conseguiu. O sistema de IA processa a fala de forma nativa e responde de maneira muito semelhante a um humano.
Agora, ele tem uma nova startup, a WaveForms AI, que está tentando desenvolver algo ainda melhor.
Conneau dedica uma boa parte do seu tempo a pensar em como evitar a distopia mostrada naquele filme, ele disse à TechCrunch em uma entrevista. “Ela” era um filme de ficção científica sobre um mundo onde as pessoas desenvolvem relacionamentos íntimos com sistemas de IA, em vez de com outros humanos.
“O filme é uma distopia, certo? Não é um futuro que queremos,” disse Conneau. “Queremos trazer essa tecnologia – que agora existe e existirá – e queremos usá-la para o bem. Queremos fazer exatamente o oposto do que a empresa no filme faz.”
Construir a tecnologia, sem a distopia que a acompanha, parece uma contradição. Mas Conneau pretende fazê-lo de qualquer maneira e está convencido de que sua nova startup de IA ajudará as pessoas a “sentirem a AGI” com seus ouvidos.
Na segunda-feira, Conneau lançou a WaveForms AI, uma nova empresa de modelos de linguagem de áudio que está treinando seus próprios modelos base. A empresa tem como objetivo lançar produtos de áudio de IA em 2025 que concorram com as ofertas da OpenAI e do Google. A startup anunciou que arrecadou US$ 40 milhões em financiamento semente, liderado pela Andreessen Horowitz.
Conneau afirma que Marc Andreessen – que já escreveu que a IA deve fazer parte de todos os aspectos da vida humana – demonstrou um interesse pessoal em seu empreendimento.
Vale a pena notar que a obsessão de Conneau pelo filme “Ela” pode ter colocado a OpenAI em apuros em um determinado momento. Scarlett Johansson enviou uma ameaça legal à startup de Sam Altman no início deste ano, forçando a OpenAI a remover uma das vozes do ChatGPT que se parecia muito com a sua personagem no filme. A OpenAI negou ter tentado replicar sua voz.
Mas é inegável o quanto o filme influenciou Conneau. “Ela” era claramente ficção científica quando foi lançada em 2013 — na época, a Siri da Apple era bastante nova e muito limitada. Mas hoje, a tecnologia parece assustadoramente ao nosso alcance.
Plataformas de companheirismo de IA, como Character.AI, alcançam milhões de usuários semanalmente que apenas querem conversar com seus chatbots. O setor está se emergindo como um caso de uso popular para a IA generativa — apesar de resultados ocasionalmente trágicos e inquietantes. Você pode imaginar como alguém que digita com um chatbot o dia todo adoraria a chance de falar com ele também, especialmente usando uma tecnologia tão convincente quanto o Modo de Voz Avançado do ChatGPT.
O CEO da WaveForms AI é cauteloso em relação ao espaço de companheirismo de IA, e não é o núcleo de sua nova empresa. Embora ele ache que as pessoas usarão os produtos da WaveForms de novas maneiras – como falar com uma IA por 20 minutos no carro para aprender algo – Conneau diz que quer que a empresa seja mais “horizontal”.
“[A WaveForms AI] pode ser aquele professor que inspira, sabe, talvez aquele professor que você não teria em sua vida, pelo menos na sua vida física,” disse o CEO.
No futuro, ele acredita que falar com IA generativa será uma forma mais comum de interagir com todos os tipos de tecnologia. Isso pode incluir conversar com seu carro e com seu computador. A WaveForms visa fornecer a IA “emocionalmente inteligente” que facilita tudo isso.
“Eu não acredito em um futuro onde a interação humano-IA substitui a interação humano-humano,” disse Conneau. “Se houver algo, será complementar.”
Ele afirma que a IA pode aprender com os erros das redes sociais. Por exemplo, ele acredita que a IA não deve otimizar para “tempo gasto na plataforma”, uma métrica comum de sucesso para aplicativos sociais que pode promover hábitos insalubres, como o “doomscrolling”. De forma mais ampla, ele quer garantir que a IA da WaveForms esteja alinhada com os melhores interesses dos humanos, chamando isso de “o trabalho mais importante que você poderia fazer.”
Conneau afirma que o nome do projeto da OpenAI, “Modo de Voz Avançado”, não faz justiça a quão diferente a tecnologia é do modo de voz regular do ChatGPT.
O antigo modo de voz era realmente apenas traduzindo sua voz em texto, passando pelo GPT-4 e, em seguida, convertendo aquele texto de volta em fala. Era uma solução um tanto improvisada. No entanto, com o Modo de Voz Avançado, Conneau diz que o GPT-4o está realmente quebrando o áudio da sua voz em tokens (aparentemente, cada segundo de áudio é igual a aproximadamente três tokens) e executando esses tokens diretamente em um modelo de transformador específico para áudio. Isso, ele explicou, é o que permite ao Modo de Voz Avançado ter uma latência tão baixa.
Uma afirmação que é frequentemente feita ao falar sobre modelos de áudio de IA é que supostamente podem “entender emoções”. Assim como os LLMs baseados em texto se baseiam em padrões encontrados em pilhas de documentos textuais, os LLMs de áudio fazem o mesmo com clipes de áudio de humanos falando. Os humanos rotulam esses clipes como “tristes” ou “animados” para que os modelos de IA reconheçam padrões de voz semelhantes quando ouvem você dizer isso, e até respondam com entonações emocionais próprias. Portanto, é menos que eles “entendam emoções” e mais que eles reconhecem sistematicamente as qualidades de áudio que os humanos associam a essas emoções.
Tornando a IA mais pessoal, e não mais inteligente
Conneau está apostando que a IA generativa de hoje não precisa se tornar significativamente mais inteligente que o GPT-4o para criar melhores produtos. Em vez de melhorar a inteligência subjacente desses modelos, como a OpenAI está fazendo com o o1, a WaveForms está simplesmente tentando tornar a IA melhor para conversar.
“Haverá um mercado de pessoas [usando IA generativa] que escolherão a interação que é mais agradável para elas,” disse Conneau.
É por isso que a startup está confiante de que pode desenvolver seus próprios modelos fundamentais — idealmente, menores, que serão menos caros e mais rápidos de executar. Isso não é uma aposta ruim, dado as recentes evidências de que as antigas leis de escalonamento da IA estão desacelerando.
Conneau diz que seu ex-colega na OpenAI, Ilya Sutskever, muitas vezes falava com ele sobre tentar “sentir a AGI” – essencialmente, usar uma intuição para avaliar se alcançamos a IA superinteligente. O CEO da WaveForms está convencido de que alcançar a AGI será mais uma sensação, em vez de alcançar algum tipo de referência, e os LLMs de áudio serão a chave para essa sensação.
“Eu acho que você será capaz de sentir a AGI muito mais quando você puder conversar com ela, quando puder ouvir a AGI, quando puder realmente falar com o transformador em si,” disse Conneau, repetindo comentários que fez a Sutskever durante um jantar.
Mas à medida que as startups tornam a IA melhor para conversar, elas têm a responsabilidade de descobrir como garantir que as pessoas não se tornem viciadas. No entanto, o sócio geral da Andreessen Horowitz, Martin Casado, que ajudou a liderar o investimento na WaveForms, diz que não é necessariamente algo ruim se as pessoas estão conversando mais com a IA.
“Posso conversar com uma pessoa aleatória na internet, e essa pessoa pode me intimidar, essa pessoa pode tirar vantagem de mim… Posso conversar com um vídeo game que pode ser arbitrariamente violento, ou posso conversar com uma IA,” disse Casado em uma entrevista à TechCrunch. “Acho que é uma pergunta importante de se estudar. Não ficaria surpreso se acabar sendo realmente preferível [conversar com a IA].”
Algumas empresas podem considerar o desenvolvimento de um relacionamento amoroso com sua IA como um marcador de sucesso. Mas, do ponto de vista social, isso também pode ser visto como um indicador de total fracasso, assim como o filme “Ela” tentou retratar. Essa é a corda bamba que a WaveForms agora precisa atravessar.
Conteúdo relacionado
Little Umbrella faz a chuva de investimentos após o sucesso do jogo social Death by AI
[the_ad id="145565"] Inscreva-se em nossos boletins diários e semanais para ficar por dentro das últimas atualizações e conteúdos exclusivos sobre a cobertura de IA de ponta.…
A OpenAI oferecerá sua tecnologia para laboratórios nacionais dos EUA para pesquisa em armas nucleares.
[the_ad id="145565"] A OpenAI anunciou que pretende permitir que os Laboratórios Nacionais dos EUA, a rede de laboratórios de P&D do Departamento de Energia, utilizem seus…
Esses egressos de Yale e Berkeley acabaram de levantar 2 milhões de dólares para construir um assistente de IA que pode rivalizar com a OpenAI
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder da indústria em IA. Saiba mais…