Bolt42

A Google, logo após o lançamento do Gemini Ultra 1.0, surpreendeu o mundo da IA com o anúncio do Gemini 1.5, que inclui o Gemini 1.5 Pro.

Este não é apenas um pequeno update. Parece ser uma oferta poderosa com melhorias significativas em relação ao modelo anterior.

O CEO do Google, Sundar Pichai, afirmou no post do blog de anúncio:

“Isso mostra melhorias dramáticas em várias dimensões e o 1.5 Pro atinge uma qualidade comparável ao 1.0 Ultra, enquanto utiliza menos recursos computacionais.”

O que você precisa saber sobre o anúncio?

Eu recebi as informações do fundador/CEO do Marketing AI Institute, Paul Roetzer, no Episódio 84 do The Artificial Intelligence Show.

Ele pode lidar com 1 milhão de tokens.

O Gemini 1.5 oferece o que o Google chama de um “avanço” na compreensão de longos contextos. Ele pode usar até 1 milhão de tokens de forma consistente, o que é muito mais longo do que qualquer outro modelo de base grande existente.

Isso significa que o Gemini pode manejar “grandes quantidades de informação de uma só vez”, como:

  • 1 hora de vídeo…
  • 11 horas de áudio…
  • 30.000 linhas de código…
  • Ou mais de 700.000 palavras.

Isso é um grande feito. O Gemini 1.5 pode aprender e utilizar muito mais material do que outros modelos.

Além disso, o Google afirma que chegou a até 10 milhões de tokens em sua pesquisa.

“Quanto maior a janela de contexto, mais informações você pode colocar no prompt e a saída pode se tornar mais consistente, relevante e útil,” diz Roetzer.

Possui habilidades de aprendizado revolucionárias.

O Google afirma que o Gemini 1.5 exibe aprendizado em contexto, o que significa que ele pode aprender novas habilidades a partir de informações fornecidas em um longo prompt, sem necessidade de afinação adicional.

Um exemplo dado pela empresa mostra como o Gemini 1.5 aprendeu com informações que nunca tinha visto antes:

“Quando recebeu um manual de gramática para o Kalamang, uma linguagem com menos de 200 falantes em todo o mundo, o modelo aprendeu a traduzir do inglês para o Kalamang em um nível semelhante ao de uma pessoa aprendendo com o mesmo conteúdo.”

As implicações para os negócios são profundas.

Isso abre muitas possibilidades valiosas em marketing e negócios. O Google oferece alguns exemplos de possíveis casos de uso:

  • Analisar com precisão bases de código inteiras…
  • Raciocinar, sintetizar e fazer comparações em documentos muito longos, como contratos, relatórios de analistas, estudos de pesquisa ou livros…
  • Analisar e comparar conteúdo de horas de vídeo e encontrar detalhes específicos em filmagens…
  • E permitir que chatbots tenham longas conversas sem esquecer detalhes.

Com alguns modelos, já é possível fazer algumas dessas coisas. Mas o que tradicionalmente acontece é que os modelos existentes se tornam menos precisos e confiáveis à medida que você lhes dá mais tokens, afirma Roetzer.

“O que parece que o Google está dizendo é que estão encontrando maneiras de manter a precisão e a confiabilidade.”

Se for verdade, isso tem implicações profundas para o trabalho do conhecimento.

E se os chatbots se tornassem totalmente confiáveis e precisos, e lembrassem de tudo que você havia discutido anteriormente? E se você pudesse encontrar detalhes específicos em qualquer quantidade de filmagens de vídeo instantaneamente? E se você pudesse obter informações detalhadas, precisas e confiáveis de qualquer tipo de gravação, texto ou código?

Qualquer uma dessas opções—e inúmeras outras—poderia transformar o trabalho do conhecimento se fossem feitas de forma precisa.

“Quando essas coisas se tornarem verdadeiramente confiáveis, é meio louco parar para pensar,” diz Roetzer.



Bolt42