Bolt42

O mundo da IA está agitado com uma série de anúncios revolucionários, rumores e lançamentos das principais empresas de IA.

Esta semana, a Anthropic lançou uma atualização do Claude 3.5 Sonnet e ensinou o Claude a usar um computador, enquanto diversas outras empresas de IA introduziram poderosas atualizações. E o mundo da IA não consegue parar de comentar sobre rumores fascinantes sobre os próximos modelos da OpenAI e Google.

(Incluindo rumores de que poderemos receber modelos significativamente mais poderosos este ano.)

Se você quer entender o que está realmente acontecendo, continue lendo:

Eu obtive as informações diretamente do fundador e CEO do Marketing AI Institute, Paul Roetzer, no episódio 121 do The Artificial Intelligence Show.

A Grande Onda de Anúncios de IA

Primeiro, vamos analisar os anúncios que recebemos esta semana. Depois, exploraremos por que eles são importantes.

  1. A Anthropic revelou atualizações significativas em seus modelos de IA, incluindo um Claude 3.5 Sonnet aprimorado e um novo modelo Claude 3.5 Haiku. O mais notável é que introduziram a capacidade do Claude de usar computadores — controlando cursores, clicando em botões e digitando texto através de sua API.
  2. A OpenAI está supostamente intensificando suas ferramentas de desenvolvimento de software impulsionadas por IA, impulsionada pela crescente concorrência da Anthropic no espaço de codificação. Eles estão trabalhando em integrações com editores de código populares e recursos mais ambiciosos para automatizar tarefas de engenharia complexas.
  3. A Perplexity anunciou que seu serviço Pro está evoluindo para um “agente de busca com raciocínio” para consultas complexas que exigem extensa navegação e análise.
  4. A Runway apresentou Act-One, uma ferramenta inovadora que transforma a criação de animações de personagens usando entradas de vídeo simples — potencialmente revolucionando a indústria da animação.
  5. A ElevenLabs lançou Voice Design, permitindo que os usuários gerem vozes personalizadas apenas por descrições de texto.
  6. A Stability AI (sim, eles ainda estão por aí) lançou Stable Diffusion 3.5, seu modelo de geração de imagens mais poderoso até agora.

E o moinho de rumores está trabalhando a todo vapor. Também vimos os seguintes rumores se espalharem rapidamente:

Primeiro, o The Verge relatou que a OpenAI poderia lançar seu próximo modelo de fronteira, codinome “Orion,” já em dezembro deste ano — bem na época do segundo aniversário do ChatGPT.

O CEO Sam Altman rapidamente postou que isso era “notícia falsa”, e um porta-voz da OpenAI disse que a empresa não planeja lançar nada chamado Orion este ano. (Eles afirmaram, no entanto, que planejam lançar “outra grande tecnologia.”)

Em segundo lugar, o The Verge também relatou que o Google pode estar planejando lançar o Gemini 2.0 em dezembro. A The Information se somou a esse relato com afirmações de que o Google também está trabalhando em algo chamado “Project Jarvis,” que é uma IA que pode realizar tarefas para você no Google Chrome, incluindo fazer pesquisas, reservar um voo ou comprar um produto.

Está sua cabeça girando?

Mas, falando seriamente, o que realmente importa prestar atenção aqui? Roetzer teve algumas reflexões.

O Uso de Computadores é Apenas Hype?

A maior announcement formal que está chamando atenção é a capacidade da Anthropic de dar ao Claude a habilidade de usar um computador. Mas, cuidado com o hype, diz Roetzer.

A tecnologia ainda é muito, muito inicial e bastante rudimentar. Além disso, apesar do que alguns comentadores online estão dizendo, não é realmente nova. A ideia de um modelo de IA ser capaz de ver o que está acontecendo na sua tela e tomar ações remonta há bastante tempo.

De fato, o famoso pesquisador de IA Andrej Karpathy estava trabalhando nessa ideia durante sua primeira passagem pela OpenAI em 2017. É um conceito chamado “Mundo de Bits.”

A ideia básica é que o “Mundo de Átomos” é o mundo real que nós humanos habitamos e interagimos fisicamente. Mas, há também outro “Mundo de Bits,” o mundo digital, que uma máquina pode ser capaz de navegar para nós.

Em 2017, não era possível construir um agente geral que conseguisse descobrir como interagir com um site. Mas isso mudou ao longo dos anos seguintes.

“Modelos de linguagem grande desbloquearam essa capacidade de construir esses agentes baseados na web,” diz Roetzer. “Porque o que perceberam é que, uma vez que o modelo pudesse entender a linguagem, poderia realmente ser treinado para fazer esse modelo de uso de computador em que aprenderia como usar teclados e mouses.”

Em suma, essa ideia de uso de computador já existe há algum tempo, e os principais laboratórios de IA fora da Anthropic também têm trabalhado nisso.

A versão da Anthropic, a empresa admite, está em seus estágios muito iniciais. (Claude conta pixels na tela para tornar o uso de computador possível.)

Não só a tecnologia é inicial, diz Roetzer. É também perigosa. Dar a um agente não testado acesso aos seus logins ou acesso total às suas permissões não é aconselhável, alerta a Anthropic.

A empresa até afirmou que, por razões de segurança, não permitiu que o modelo acessasse a internet durante o treinamento.

“Estranhamente, a Anthropic, a empresa de modelos de fronteira que supostamente deveria se concentrar mais na IA responsável que todas as outras, é a que trouxe ao mercado uma ferramenta que não é segura,” diz Roetzer.

A própria documentação da empresa alerta os usuários a:

  • Usar máquinas virtuais dedicadas com privilégios mínimos
  • Evitar dar acesso a dados sensíveis ou informações de login
  • Limitar o acesso à internet a domínios aprovados
  • Ter humanos confirmando qualquer decisão real significativa

A empresa afirma que liberar a funcionalidade de uso do computador agora é melhor do que depois. Isso dá mais tempo para tornar a tecnologia mais segura antes que os modelos subjacentes fiquem boas demais.

Portanto, o uso de computador ainda não mudou nada para o líder empresarial médio, diz Roetzer. E pode não mudar por algum tempo: os usuários vão estar compreensivelmente nervosos sobre dar ao AI que usa o computador acesso às ferramentas que precisa para realizar tarefas.

Esses Rumores São Reais?

Então, o que dizer sobre todos os rumores circulando sobre a OpenAI e o Google?

Como sempre, é importante lembrar, diz Roetzer: “São apenas rumores.”

No entanto, ele diz que não ficaria surpreso se o Google lançasse o Gemini 2.0 até o final do ano, como foi relatado.

Ele também apostaria que “algo está vindo” da OpenAI. Estamos vendo todos os sinais típicos de que algo está prestes a acontecer, incluindo muitos rumores e vazamentos, além de Sam Altman postando de forma enigmática online.

“Então, eles definitivamente estão prestes a lançar algo,” diz Roetzer. “Embora provavelmente não o chamem de Orion.”

Um de seus palpites? A versão completa do o1, o novo modelo avançado de raciocínio da empresa. Neste momento, só temos acesso à versão de prévia do modelo. Roetzer suspeita que isso mudará em breve.

Bolt42