Bolt42

O Google está tentando causar impacto com o Gemini, sua suíte de modelos, aplicativos e serviços de IA generativa. Mas o que é Gemini? Como você pode usá-lo? E como ele se compara a outras ferramentas de IA generativa, como o ChatGPT da OpenAI, o Llama da Meta e o Copilot da Microsoft?

Para facilitar o acompanhamento das últimas novidades do Gemini, preparamos este guia prático, que manteremos atualizado à medida que novos modelos, recursos e notícias sobre os planos do Google para o Gemini forem divulgados.

O que é Gemini?

Gemini é a tão prometida família de modelos de IA generativa de próxima geração do Google. Desenvolvido pelos laboratórios de pesquisa em IA do Google, DeepMind e Google Research, vem em quatro variantes:

  • Gemini Ultra, um modelo muito grande.
  • Gemini Pro, um modelo grande – embora menor que o Ultra. A versão mais recente, Gemini 2.0 Pro Experimental, é o carro-chefe do Google.
  • Gemini Flash, uma versão mais rápida e “destilada” do Pro. Também vem em uma versão ligeiramente menor e mais rápida, chamada Gemini Flash-Lite, e uma versão com capacidades de raciocínio, chamada Gemini Flash Thinking Experimental.
  • Gemini Nano, dois modelos pequenos: Nano-1 e o ligeiramente mais capaz Nano-2, que é projetado para operar offline.

Todos os modelos Gemini foram treinados para serem nativamente multimodais — ou seja, capazes de trabalhar e analisar mais do que apenas texto. O Google afirma que foram pré-treinados e ajustados em uma variedade de dados públicos, proprietários e licenciados que incluem áudio, imagens e vídeos; um conjunto de bases de código; e textos em diferentes idiomas.

Isso diferencia o Gemini de modelos como o próprio LaMDA do Google, que foi treinado exclusivamente em dados textuais. O LaMDA não consegue entender ou gerar nada além de texto (por exemplo, ensaios, e-mails, etc.), mas não é necessariamente esse o caso com os modelos Gemini.

É importante observar que a ética e a legalidade de treinar modelos em dados públicos, em alguns casos sem o conhecimento ou consentimento dos proprietários dos dados, são questões complicadas. O Google possui uma política de indenização de IA para proteger certos clientes do Google Cloud de processos judiciais, mas essa política contém exceções. Proceeda com cautela — especialmente se você pretende usar o Gemini comercialmente.

Qual é a diferença entre os aplicativos Gemini e os modelos Gemini?

Gemini é distinto dos aplicativos Gemini na web e móvel (anteriormente Bard).

Os aplicativos Gemini são clientes que se conectam a vários modelos Gemini e aplicam uma interface semelhante a um chatbot por cima. Pense neles como front-ends para a IA generativa do Google, análogos ao ChatGPT e à família de aplicativos da Anthropic, Claude.

Créditos da imagem:Google

O Gemini na web está disponível aqui. No Android, o aplicativo Gemini substitui o aplicativo Google Assistente existente. E no iOS, os aplicativos Google e Google Search atuam como clientes do Gemini nesta plataforma.

No Android, também se tornou possível trazer a sobreposição do Gemini sobre qualquer aplicativo para fazer perguntas sobre o que está na tela (por exemplo, um vídeo do YouTube). Basta pressionar e segurar o botão de energia de um smartphone compatível ou dizer: “Ok Google”; você verá a sobreposição aparecer.

Os aplicativos Gemini podem aceitar imagens, bem como comandos de voz e texto — incluindo arquivos como PDFs e em breve vídeos, seja carregados ou importados do Google Drive — e gerar imagens. Como você esperaria, as conversas com os aplicativos Gemini em dispositivos móveis são transferidas para o Gemini na web e vice-versa se você estiver conectado à mesma conta do Google em ambas as localidades.

Gemini Avançado

Os aplicativos Gemini não são os únicos meios de recorrer à assistência dos modelos Gemini para tarefas. Aos poucos, recursos imbuídos do Gemini estão chegando a aplicativos e serviços essenciais do Google, como Gmail e Google Docs.

  • Para aproveitar a maioria desses recursos, você precisará do Google One AI Premium Plan. Technicamente parte do Google One, o AI Premium Plan custa $20 e fornece acesso ao Gemini em aplicativos do Google Workspace, como Docs, Maps, Slides, Sheets, Drive e Meet. Também permite o que o Google chama de Gemini Avançado, que traz os modelos mais sofisticados do Gemini para os aplicativos Gemini.
  • Os usuários do Gemini Avançado recebem vantagens adicionais, como acesso prioritário a novos recursos, a capacidade de executar e editar código Python diretamente no Gemini, e uma “janela de contexto” maior. O Gemini Avançado pode lembrar o conteúdo de — e raciocinar sobre — aproximadamente 750.000 palavras em uma conversa (ou 1.500 páginas de documentos). Isso em comparação com as 24.000 palavras (ou 48 páginas) que o aplicativo Gemini básico pode lidar.

Créditos da imagem:Google

O Gemini Avançado também oferece aos usuários acesso ao recurso de pesquisa profunda do Google, que utiliza “raciocínio avançado” e “capacidades de longo contexto” para gerar relatórios de pesquisa. Após você solicitar ao chatbot, ele cria um plano de pesquisa em várias etapas, pede sua aprovação e, em seguida, o Gemini leva alguns minutos para pesquisar na web e gerar um relatório extenso com base na sua consulta. É destinado a responder perguntas mais complexas, como: “Você pode me ajudar a redesenhar minha cozinha?”

O Google também oferece aos usuários do Gemini Avançado um recurso de memória, que permite que o chatbot use suas conversas anteriores com o Gemini como contexto para sua conversa atual. Os usuários do Gemini Avançado também recebem aumento de uso para NotebookLM, o produto da empresa que transforma PDFs em podcasts gerados por IA.

Os usuários do Gemini Avançado têm acesso ainda à versão experimental do Gemini 2.0 Pro, o modelo carro-chefe da empresa otimizado para problemas difíceis de codificação e matemática.

Outro recurso exclusivo do Gemini Avançado é o planejamento de viagens no Google Search, que cria itinerários de viagem personalizados a partir de solicitações. Levando em conta aspectos como horários de voos (a partir de e-mails na caixa de entrada do Gmail de um usuário), preferências alimentares e informações sobre atrações locais (a partir de dados do Google Search e Maps), bem como as distâncias entre essas atrações, o Gemini gerará um itinerário que se atualiza automaticamente para refletir quaisquer mudanças.

A abrangência do Gemini nos serviços do Google também está disponível para clientes corporativos através de dois planos, Gemini Business (um complemento para o Google Workspace) e Gemini Enterprise. O Gemini Business custa a partir de $6 por usuário por mês, enquanto o Gemini Enterprise — que adiciona a tomada de notas em reuniões e traduções de legendas, bem como classificação e rotulagem de documentos — é geralmente mais caro, mas seu preço é baseado nas necessidades de um negócio. (Ambos os planos requerem um compromisso anual.)

No Gmail, o Gemini vive em um painel lateral que pode escrever e-mails e resumir conversas. Você encontrará o mesmo painel no Docs, onde ele ajuda a escrever e refinar seu conteúdo e a gerar novas ideias. O Gemini em Slides gera slides e imagens personalizadas. E o Gemini em Google Sheets acompanha e organiza dados, criando tabelas e fórmulas.

Créditos da imagem:Google

O chatbot de IA do Google recentemente chegou ao Maps, onde o Gemini pode resumir avaliações sobre cafés ou oferecer recomendações sobre como passar um dia visitando uma cidade estrangeira.

A abrangência do Gemini se estende ao Drive também, onde ele pode resumir arquivos e pastas e fornecer informações rápidas sobre um projeto. No Meet, o Gemini, por sua vez, traduz legendas para outros idiomas.

Créditos da imagem:Google

O Gemini recentemente chegou ao navegador Chrome do Google na forma de uma ferramenta de escrita de IA. Você pode usá-lo para escrever algo completamente novo ou reescrever texto existente; o Google afirma que considerará a página da web em que você está para fazer recomendações.

Além disso, você encontrará indícios do Gemini nos produtos de banco de dados do Google, ferramentas de segurança em nuvem e plataformas de desenvolvimento de aplicativos (incluindo Firebase e Project IDX), assim como em aplicativos como Google Photos (onde o Gemini lida com consultas de busca em linguagem natural), YouTube (onde ajuda na geração de ideias para vídeos) e o assistente de anotações NotebookLM.

O Code Assist (anteriormente Duet AI for Developers), a suíte de ferramentas de assistência à codificação da Google, está descarregando o trabalho computacional intenso para o Gemini. Os produtos de segurança do Google que se baseiam no Gemini, como o Gemini em Threat Intelligence, também são capazes de analisar grandes porções de código potencialmente malicioso e permitir que os usuários realizem buscas em linguagem natural por ameaças ou indicadores de comprometimento.

Extensões do Gemini e Gems

Anunciado no Google I/O 2024, os usuários do Gemini Avançado podem criar Gems, chatbots personalizados alimentados por modelos Gemini. Gems podem ser gerados a partir de descrições em linguagem natural — por exemplo, “Você é meu treinador de corrida. Dê-me um plano diário de corrida” — e compartilhados com outras pessoas ou mantidos de forma privada.

As Gems estão disponíveis em desktop e móvel em 150 países e na maioria dos idiomas. Eventualmente, elas poderão usar um conjunto expandido de integrações com os serviços do Google, incluindo Google Calendar, Tasks, Keep e YouTube Music, para realizar tarefas personalizadas.

Créditos da imagem:Google

Falando em integrações, os aplicativos Gemini na web e móvel podem acessar os serviços do Google através do que o Google chama de “extensões do Gemini”. O Gemini atualmente integra-se ao Google Drive, Gmail e YouTube para responder a consultas como “Você poderia resumir meus últimos três e-mails?” Mais tarde este ano, o Gemini poderá realizar ações adicionais com Google Calendar, Keep, Tasks, YouTube Music e Utilities, os aplicativos exclusivos do Android que controlam recursos do dispositivo, como temporizadores e alarmes, controle de mídia, lanternas, volume, Wi-Fi, Bluetooth e assim por diante.

Gemini Live: chats de voz aprofundados

Uma experiência chamada Gemini Live permite que os usuários tenham chats de voz “aprofundados” com o Gemini. Está disponível nos aplicativos Gemini em dispositivos móveis e nos Pixel Buds Pro 2, onde pode ser acessado mesmo quando o telefone está bloqueado.

Com o Gemini Live ativado, você pode interromper o Gemini enquanto o chatbot está falando (em uma de várias novas vozes) para fazer uma pergunta de esclarecimento, e ele se adaptará ao seu padrão de fala em tempo real. Em algum momento, o Gemini deve ganhar entendimento visual, permitindo que ele veja e responda ao seu ambiente, seja por meio de fotos ou vídeos capturados pelas câmeras dos smartphones.

Créditos da imagem:Google

O Live também foi projetado para servir como uma espécie de coach virtual, ajudando você a ensaiar para eventos, a gerar ideias, e assim por diante. Por exemplo, o Live pode sugerir quais habilidades destacar em uma próxima entrevista de emprego ou estágio, e pode dar dicas sobre como falar em público.

Você pode ler nossa análise sobre o Gemini Live aqui. Spoiler: achamos que o recurso ainda tem um longo caminho a percorrer antes de ser realmente útil — mas é verdade que é um trabalho em desenvolvimento, por assim dizer.

Geração de imagens via Imagen 3

Os usuários do Gemini podem gerar obras de arte e imagens usando o modelo integrado Imagen 3 do Google.

O Google afirma que o Imagen 3 pode entender com mais precisão os prompts de texto que traduz para imagens em comparação com seu antecessor, Imagen 2, e é mais “criativo e detalhado” em suas gerações. Além disso, o modelo produz menos artefatos e erros visuais (pelo menos de acordo com o Google) e é o melhor modelo Imagen até agora para renderizar texto.

Uma amostra do Imagen 3.
Créditos da imagem:Google

Em fevereiro de 2024, o Google foi forçado a pausar a capacidade do Gemini de gerar imagens de pessoas após reclamações de usuários sobre imprecisões históricas. Mas em agosto, a empresa reintroduziu a geração de pessoas para certos usuários, especificamente para usuários de língua inglesa inscritos em um de seus planos pagos do Gemini (por exemplo, Gemini Avançado) como parte de um programa piloto.

Gemini para adolescentes

Em junho, o Google apresentou uma experiência focada em adolescentes do Gemini, permitindo que estudantes se inscrevessem através de suas contas escolares do Google Workspace for Education.

O Gemini voltado para adolescentes possui “políticas e salvaguardas adicionais”, incluindo um processo de integração adaptado e um “guia de alfabetização em IA” para (como o Google descreve) “ajudar os adolescentes a usar a IA de maneira responsável.” De outra forma, é praticamente idêntico à experiência padrão do Gemini, inclusive com o recurso “double check”, que pesquisa na web para verificar a precisão das respostas do Gemini.

Gemini em dispositivos domésticos inteligentes

Um número crescente de dispositivos fabricados pelo Google aproveita o Gemini para funcionalidade aprimorada, desde o Google TV Streamer aos Pixel 9 e 9 Pro, além do novo Nest Learning Thermostat.

No Google TV Streamer, o Gemini utiliza suas preferências para curar sugestões de conteúdo em suas assinaturas e resumir avaliações e até mesmo temporadas inteiras de TV.

Créditos da imagem:Google

No mais recente termostato Nest (assim como em alto-falantes, câmeras e displays inteligentes da Nest), o Gemini em breve aprimorará as capacidades de conversa e análise do Google Assistant.

Os assinantes do plano Nest Aware do Google, ainda este ano, receberão uma prévia de novas experiências alimentadas pelo Gemini, como descrições alimentadas por IA para imagens de câmera Nest, busca em vídeo em linguagem natural e automações recomendadas. Câmeras Nest entenderão o que está acontecendo em feeds de vídeo em tempo real (por exemplo, quando um cachorro está cavando no jardim), enquanto o aplicativo Google Home acompanhante apresentará vídeos e criará automações para dispositivos com base em uma descrição (por exemplo, “As crianças deixaram as bicicletas na entrada?” “Faça meu termostato Nest ligar o aquecimento quando eu voltar do trabalho todas as terças-feiras.”)

O Gemini também será capaz de resumir imagens de câmeras de segurança dos dispositivos Nest.

Créditos da imagem:Google

Mais tarde, ainda este ano, o Google Assistant receberá algumas melhorias em dispositivos domésticos inteligentes da marca Nest e outros, para tornar as conversas mais naturais. Novas vozes estão a caminho, em adição à capacidade de fazer perguntas de acompanhamento e “[mais] facilidade para retomar a conversa.”

O que os modelos Gemini podem fazer?

Como os modelos Gemini são multimodais, eles podem realizar uma variedade de tarefas multimodais, desde transcrever fala até legendas de imagens e vídeos em tempo real. Muitas dessas capacidades chegaram à fase de produto (como mencionado na seção anterior) e o Google promete muito mais em um futuro não muito distante.

Claro, é um pouco difícil acreditar na palavra da empresa. O Google não atendeu às expectativas com o lançamento original do Bard. Mais recentemente, ele desagradou a alguns com um vídeo que supostamente mostrava as capacidades do Gemini que era mais ou menos aspiracional — não ao vivo.

Além disso, o Google não oferece uma solução para alguns dos problemas subjacentes com a tecnologia de IA generativa hoje, como seus preconceitos codificados e a tendência de criar informações que não são verdadeiras (ou seja, alucinar). Seus rivais também não oferecem isso, mas é algo a ser levado em consideração ao considerar o uso ou pagamento do Gemini.

Assumindo, para fins deste artigo, que o Google está sendo verdadeiro com suas afirmações recentes, aqui está o que os diferentes níveis do Gemini podem fazer agora e o que poderão fazer assim que atingirem seu pleno potencial:

O que você pode fazer com o Gemini Ultra

O Google afirma que o Gemini Ultra — graças à sua multimodalidade — pode ser utilizado para ajudar em coisas como dever de casa de física, resolvendo problemas passo a passo em uma folha de trabalho e apontando possíveis erros em respostas já preenchidas.

No entanto, não temos visto muito do Gemini Ultra nos últimos meses. O modelo não aparece no aplicativo Gemini e não está listado na página de preços da API do Google Gemini. No entanto, isso não significa que o Google não trará o Gemini Ultra de volta ao primeiro plano de suas ofertas no futuro.

O Ultra também pode ser aplicado a tarefas como identificar trabalhos científicos relevantes para um problema, diz o Google. O modelo pode extrair informações de vários trabalhos, por exemplo, e atualizar um gráfico de uma delas gerando as fórmulas necessárias para recriar o gráfico com dados mais atualizados.

O Gemini Ultra suporta tecnicamente a geração de imagens. Mas essa capacidade ainda não chegou à versão produtiva do modelo — talvez porque o mecanismo seja mais complexo do que a forma como aplicativos como o ChatGPT geram imagens. Em vez de enviar prompts para um gerador de imagens (como o DALL-E 3, no caso do ChatGPT), o Gemini gera imagens “nativamente”, sem uma etapa intermediária.

O Ultra está disponível como uma API através do Vertex AI, a plataforma de desenvolvimento de IA totalmente gerenciada do Google, e do AI Studio, a ferramenta baseada na web para desenvolvedores de aplicativos e plataformas do Google.

Capacidades do Gemini Pro

O Google afirma que seu mais recente modelo Pro, Gemini 2.0 Pro, é seu melhor modelo até agora para desempenho em codificação e prompts complexos. Atualmente, está disponível como uma versão experimental, o que significa que pode apresentar problemas inesperados.

O Gemini 2.0 Pro supera seu antecessor, o Gemini 1.5 Pro, em benchmarks que medem a codificação, raciocínio, matemática e precisão factual. O modelo pode processar até 1,4 milhões de palavras, duas horas de vídeo ou 22 horas de áudio e pode raciocinar ou responder perguntas sobre esses dados (mais ou menos).

No entanto, o Gemini 1.5 Pro ainda alimenta o recurso de pesquisa profunda do Google.

O Gemini 2.0 Pro trabalha ao lado de um recurso chamado execução de código, lançado em junho junto com o Gemini 1.5 Pro, que visa reduzir bugs no código que o modelo gera, refinando iterativamente esse código em várias etapas. (A execução de código também suporta o Gemini Flash.)

Dentro do Vertex AI, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos através de um processo de ajuste fino ou “fundamentação”. Por exemplo, o Pro (junto com outros modelos Gemini) pode ser instruído a usar dados de provedores de terceiros como Moody’s, Thomson Reuters, ZoomInfo e MSCI, ou obter informações de conjuntos de dados corporativos ou de buscas no Google em vez de seu banco de dados mais amplo. O Gemini Pro também pode ser conectado a APIs externas de terceiros para executar ações específicas, como automatizar um fluxo de trabalho de back-office.

O AI Studio oferece modelos para criar prompts de chat estruturados com o Pro. Os desenvolvedores podem controlar a faixa criativa do modelo e fornecer exemplos para dar instruções sobre tom e estilo — e também ajustar as configurações de segurança do Pro.

O Vertex AI Agent Builder permite que as pessoas construam “agentes” alimentados pelo Gemini dentro do Vertex AI. Por exemplo, uma empresa poderia criar um agente que analisa campanhas de marketing anteriores para entender um estilo de marca e, em seguida, aplicar esse conhecimento para ajudar a gerar novas ideias consistentes com o estilo.

Gemini Flash é mais leve, mas potente

O Google chama o Gemini 2.0 Flash de seu modelo de IA para a era ativa. O modelo pode nativamente gerar imagens e áudio, além de texto, e pode usar ferramentas como a Pesquisa do Google e interagir com APIs externas.

O modelo 2.0 Flash é mais rápido do que a geração anterior de modelos do Gemini e supera até mesmo alguns dos modelos Gemini 1.5 maiores em benchmarks que medem codificação e análise de imagem. Você pode experimentar o Gemini 2.0 Flash no aplicativo Gemini para web ou móvel, e através das plataformas de desenvolvedores de IA do Google.

Em dezembro, o Google lançou uma versão “pensante” do Gemini 2.0 Flash que é capaz de “raciocinar”, onde o modelo de IA leva alguns segundos para trabalhar retroativamente através de um problema antes de fornecer uma resposta.

Em fevereiro, o Google tornou o pensamento do Flash 2.0 disponível no aplicativo Gemini. No mesmo mês, o Google também lançou uma versão menor chamada Gemini 2.0 Flash-Lite. A empresa afirma que este modelo supera seu modelo Gemini 1.5 Flash, mas funciona ao mesmo preço e velocidade.

Uma ramificação do Gemini Pro que é pequena e eficiente, projetada para cargas de trabalho generativas de IA de alta frequência e estreitas, o Flash é multimodal como o Gemini Pro, o que significa que pode analisar áudio, vídeo, imagens e texto (mas só pode gerar texto). O Google afirma que o Flash é particularmente adequado para tarefas como sumarização e aplicativos de chat, além de legendagem de imagens e vídeos e extração de dados de documentos longos e tabelas.

Os desenvolvedores que usam Flash e Pro podem opcionalmente aproveitar o armazenamento em cache de contexto, que permite que eles armazenem grandes quantidades de informações (por exemplo, uma base de conhecimento ou um banco de dados de trabalhos de pesquisa) em um cache que os modelos Gemini podem acessar rapidamente e a um custo relativamente baixo. O armazenamento em cache de contexto é um custo adicional em cima das taxas de uso de outros modelos Gemini, no entanto.

Gemini Nano pode rodar no seu celular

O Gemini Nano é uma versão muito menor dos modelos Gemini Pro e Ultra, e é eficiente o suficiente para rodar diretamente em (alguns) dispositivos ao invés de enviar a tarefa para um servidor em algum lugar. Até agora, o Nano alimenta algumas funcionalidades no Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 e Samsung Galaxy S24, incluindo Sumarizar no Recorder e Resposta Inteligente no Gboard.

O aplicativo Recorder, que permite aos usuários pressionar um botão para gravar e transcrever áudio, inclui um resumo alimentado pelo Gemini de conversas gravadas, entrevistas, apresentações e outros trechos de áudio. Os usuários recebem resumos mesmo se não tiverem sinal ou conexão Wi-Fi — e em uma referência à privacidade, nenhum dado sai de seu telefone nesse processo.

Créditos da imagem:Google

O Nano também está presente no Gboard, o substituto de teclado do Google. Lá, ele alimenta um recurso chamado Resposta Inteligente, que ajuda a sugerir a próxima coisa que você deverá dizer ao ter uma conversa em um aplicativo de mensagens como o WhatsApp.

No aplicativo Google Messages, em dispositivos compatíveis, o Nano aciona o Magic Compose, que pode criar mensagens em estilos como “animado”, “formal” e “lírica”.

O Google afirma que uma versão futura do Android usará o Nano para alertar os usuários sobre possíveis fraudes durante chamadas. O novo aplicativo de clima em telefones Pixel usa o Gemini Nano para gerar relatórios de clima tailored. E o TalkBack, o serviço de acessibilidade do Google, utiliza o Nano para criar descrições auditivas de objetos para usuários com baixa visão e deficiência visual.

Quanto custam os modelos Gemini?

Os modelos Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash e 2.0 Flash-Lite estão disponíveis através da API do Gemini do Google para construir aplicativos e serviços — todos com opções gratuitas. Mas as opções gratuitas impõem limites de uso e deixam de fora certos recursos, como armazenamento em cache de contexto e agrupamento.

Os modelos Gemini são, por outro lado, com pagamento conforme o uso. Aqui estão os preços base — sem incluir complementos como armazenamento em cache de contexto — a partir de setembro de 2024:

  • Gemini 1.5 Pro: $1,25 por 1 milhão de tokens de entrada (para prompts de até 128K tokens) ou $2,50 por 1 milhão de tokens de entrada (para prompts maiores que 128K tokens); $5 por 1 milhão de tokens de saída (para prompts de até 128K tokens) ou $10 por 1 milhão de tokens de saída (para prompts maiores que 128K tokens)
  • Gemini 1.5 Flash: 7,5 centavos por 1 milhão de tokens de entrada (para prompts de até 128K tokens), 15 centavos por 1 milhão de tokens de entrada (para prompts maiores que 128K tokens), 30 centavos por 1 milhão de tokens de saída (para prompts de até 128K tokens), 60 centavos por 1 milhão de tokens de saída (para prompts maiores que 128K tokens)
  • Gemini 2.0 Flash: 10 centavos por 1 milhão de tokens de entrada, 40 centavos por 1 milhão de tokens de saída. Para áudio especificamente, custa 70 centavos por 1 milhão de tokens de entrada e também 40 centavos por 1 milhão de tokens de saída.
  • Gemini 2.0 Flash-Lite: 7,5 centavos por 1 milhão de tokens de entrada, 30 centavos por 1 milhão de tokens de saída.

Tokens são partes subdivididas de dados brutos, como as sílabas “fan”, “tas” e “tic” na palavra “fantástico”; 1 milhão de tokens equivale a cerca de 700.000 palavras. Entrada refere-se a tokens alimentados ao modelo, enquanto saída refere-se a tokens que o modelo gera.

Os preços do 2.0 Pro ainda não foram anunciados, e o Nano ainda está em acesso antecipado.

Qual é a última novidade sobre o Projeto Astra?

O Projeto Astra é o esforço do Google DeepMind para criar aplicativos e “agentes” alimentados por IA para entendimento multimodal em tempo real. Em demonstrações, o Google mostrou como o modelo de IA pode processar simultaneamente vídeo e áudio ao vivo. O Google lançou uma versão de aplicativo do Projeto Astra para um pequeno número de testadores de confiança em dezembro, mas não tem planos para um lançamento mais amplo no momento.

A empresa gostaria de colocar o Projeto Astra em um par de óculos inteligentes. O Google também deu a alguns testadores confiáveis um protótipo de alguns óculos com capacidades de projeto Astra e realidade aumentada em dezembro. No entanto, não há um produto claro neste momento, e não está claro quando o Google realmente lançaria algo assim.

O Projeto Astra ainda é apenas isso, um projeto, e não um produto. No entanto, as demonstrações do Astra revelam o que o Google gostaria que seus produtos de IA fizessem no futuro.

O Gemini vai chegar ao iPhone?

Pode ser.

A Apple afirmou que está em negociações para colocar o Gemini e outros modelos de terceiros em uso para várias funcionalidades em sua suíte Apple Intelligence. Após uma apresentação principal na WWDC 2024, o vice-presidente sênior da Apple, Craig Federighi, confirmou planos de trabalhar com modelos, incluindo o Gemini, mas não divulgou mais detalhes.

Este post foi publicado originalmente em 16 de fevereiro de 2024 e é atualizado regularmente.


    um × um =

    Bolt42