Bolt42

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA líder na indústria. Saiba mais

Os agentes de IA estão na moda, mas que tal um focado especificamente em analisar, classificar e tirar conclusões a partir de vastos volumes de dados?

O agente de ciência de dados do Google faz exatamente isso: O novo assistente de IA, gratuito e alimentado pela tecnologia Gemini 2.0, que automatiza a análise de dados, já está disponível para usuários com mais de 18 anos em países e idiomas selecionados, de forma gratuita.

O assistente está acessível por meio do Google Colab, o serviço da empresa com oito anos de funcionamento que permite rodar códigos em Python ao vivo online em cima de unidades de processamento gráfico (GPUs) próprias do gigante da busca, além de suas unidades de processamento tensorial (TPUs).

Lançado inicialmente para testadores de confiança em dezembro de 2024, o agente de ciência de dados é projetado para ajudar pesquisadores, cientistas de dados e desenvolvedores a otimizar seus fluxos de trabalho, gerando notebooks Jupyter totalmente funcionais a partir de descrições em linguagem natural, tudo no navegador do usuário.

Essa expansão está alinhada com os esforços contínuos do Google para integrar recursos de codificação e ciência de dados impulsionados por IA no Colab, construindo sobre atualizações anteriores, como a assistência de codificação alimentada pelo Codey, anunciada em maio de 2023.

Além disso, ele atua como uma espécie de resposta avançada e tardia ao análise de dados avançada do ChatGPT da OpenAI (anteriormente conhecido como Code Interpreter), que agora é incorporado ao ChatGPT quando em execução com o GPT-4.

O que é o Google Colab?

O Google Colab (abreviação de colaboratório) é um ambiente baseado em nuvem de Jupyter Notebook que permite aos usuários escrever e executar códigos em Python diretamente em seu navegador.

O Jupyter Notebook é um aplicativo web de código aberto que permite aos usuários criar e compartilhar documentos contendo código ao vivo, equações, visualizações e texto narrativo. Originado do projeto IPython em 2014, agora suporta mais de 40 linguagens de programação, incluindo Python, R e Julia. Essa plataforma interativa é amplamente utilizada em ciência de dados, pesquisa e educação para tarefas como análise de dados, visualização e ensino de conceitos de programação.

Desde seu lançamento em 2017, o Google Colab se tornou uma das plataformas mais utilizadas para aprendizado de máquina (ML), ciência de dados e educação.

Como detalhou Ori Abramovsky, líder de ciência de dados da Spectralops.io, em um excelente post no Medium de 2023, a facilidade de uso do Colab e o acesso gratuito a GPUs e TPUs o tornam uma opção de destaque para muitos desenvolvedores e pesquisadores.

Ele observou que a baixa barreira de entrada, a integração perfeita com o Google Drive e o suporte para TPUs permitiram que sua equipe reduzisse drasticamente os ciclos de treinamento ao trabalhar em modelos de IA.

No entanto, Abramovsky também apontou as limitações do Colab, como:

  • Limites de tempo de sessão (especialmente para usuários do plano gratuito).
  • A alocação de recursos imprevisível em horários de pico.
  • A falta de recursos críticos, como execução eficiente de pipeline e programação avançada.
  • Desafios de suporte, já que o Google oferece opções limitadas para assistência direta.

Apesar dessas desvantagens, Abramovsky enfatizou que o Colab continua sendo uma das melhores soluções de notebook sem servidor disponíveis — particularmente nas fases iniciais de projetos de ML e análise de dados.

Facilitando a análise de dados com IA

O agente de ciência de dados baseia-se no ambiente de notebook sem servidor do Colab, eliminando a necessidade de configuração manual.

Usando a IA Gemini do Google, os usuários podem descrever seus objetivos analíticos em português simples (“visualizar tendências”, “treinar um modelo preditivo”, “limpar valores ausentes”), e o agente gera notebooks Colab totalmente executáveis em resposta.

Ele apoia os usuários ao:

  • Automatizar análises: Gera notebooks completos e funcionais ao invés de trechos de código isolados.
  • Economizar tempo: Elimina a configuração manual e a codificação repetitiva.
  • Aprimorar a colaboração: Apresenta recursos de compartilhamento integrados para projetos em equipe.
  • Oferecer soluções modificáveis: Os usuários podem ajustar e personalizar o código gerado.

O agente de ciência de dados já está acelerando a pesquisa científica do mundo real.

De acordo com o Google, os primeiros testadores relataram economias de tempo significativas ao utilizar o agente de ciência de dados.

Por exemplo, um cientista do Laboratório Nacional Lawrence Berkeley que trabalha com emissões de metano de pântanos tropicais estimou que o tempo de processamento de dados caiu de uma semana para apenas cinco minutos ao usar o agente.

Além disso, a ferramenta teve um bom desempenho em benchmarks da indústria, classificando-se em 4º lugar no DABStep: Data Agent Benchmark for Multi-step Reasoning no Hugging Face, à frente de agentes de IA como ReAct (GPT-4.0), Deepseek, Claude 3.5 Haiku e Llama 3.3 70B.

Contudo, os modelos rivais o3-mini e o1 da OpenAI, além do Claude 3.5 Sonnet da Anthropic, superaram o novo agente de ciência de dados Gemini.

Como começar

Os usuários podem começar a utilizar o agente de ciência de dados no Google Colab seguindo estas etapas:

  1. Abra um novo notebook Colab.
  2. Carregue um conjunto de dados (CSV, JSON, etc.).
  3. Descreva a análise em linguagem natural usando o painel lateral Gemini.
  4. Execute o notebook gerado para ver insights e visualizações.

O Google fornece conjuntos de dados de exemplo e ideias de prompt para ajudar os usuários a explorar suas capacidades, incluindo:

  • Survey de desenvolvedores do Stack Overflow: “Visualizar as linguagens de programação mais populares.”
  • Conjunto de dados de espécies de Íris: “Calcular e visualizar correlações de Pearson, Spearman e Kendall.”
  • Conjunto de dados de classificação de vidro: “Treinar um classificador de floresta aleatória.”

A qualquer momento que um usuário queira usar o novo agente, ele precisará navegar até o Colab e clicar em “arquivo”, em seguida “novo notebook na unidade”, e o notebook resultante será armazenado na conta de nuvem do Google Drive.

Minha própria experiência de uso foi um pouco mista.

Concedido, sou apenas um jornalista de tecnologia e não um cientista de dados, mas meu uso do novo agente de ciência de dados alimentado pelo Gemini 2.0 no Colab até agora foi menos que perfeito.

Eu carreguei cinco arquivos CSV (valores separados por vírgula, arquivos padrão de planilhas do Excel ou Sheets) e perguntei: “Quanto estou gastando a cada mês e trimestre em minhas contas?”

O agente então executou as seguintes operações:

  • Mesclou conjuntos de dados, lidando com inconsistências de data e número de conta.
  • Filtrou e limpou os dados, garantindo que apenas as despesas relevantes permanecessem.
  • Agrupou transações por mês e trimestre para calcular gastos.
  • Gerou visualizações, como gráficos de linhas para análise de tendências.
  • Sumarizou os achados de forma clara e estruturada em um relatório.

Antes da execução, o Colab exibiu uma mensagem de confirmação, lembrando-me de que ele poderia interagir com APIs externas.

Fez tudo isso muito rapidamente e suavemente no navegador, em questão de segundos. E foi impressionante assistir ao trabalho por meio da análise e programação, com descrições visíveis passo a passo do que estava fazendo.

No entanto, acabou gerando um gráfico impreciso mostrando apenas os gastos de um mês em utilidades, falhando em reconhecer que as planilhas incluíam um ano inteiro quebrado por meses. Quando pedi para revisar, ele tentou, mas, no final, não conseguiu produzir a string de código correta para responder ao meu prompt.

Tentei do zero com o exato mesmo prompt em um novo notebook no Google Colab, e ele produziu um resultado muito melhor, mas ainda estranho.

Terei que tentar solucioná-lo um pouco mais, e, como disse, o resultado inicial incorreto pode ser devido à minha falta de experiência usando ferramentas de ciência de dados.

Preços do Colab e recursos de IA

Embora o Google Colab continue sendo gratuito, os usuários que precisam de mais poder de computação podem atualizar para planos pagos:

  • Colab Pro ($9.99/mês): 100 unidades de computação, GPUs mais rápidas, mais memória, acesso ao terminal.
  • Colab Pro+ ($49.99/mês): 500 unidades de computação, atualizações de GPU em prioridade, execução em segundo plano.
  • Colab Enterprise: integração com o Google Cloud, geração de código impulsionada por IA.
  • Pague conforme o uso: $9.99 por 100 unidades de computação, $49.99 por 500 unidades de computação.

Além do agente de ciência de dados, o Google tem expandido as capacidades de IA dentro do Colab.

O Google coleta prompts, código gerado e feedback dos usuários para melhorar seus modelos de IA. Embora os dados sejam armazenados por até 18 meses, eles são anonimizados, e pedidos de exclusão podem não ser sempre atendidos. Os usuários são aconselhados a não enviar informações sensíveis ou pessoais, pois revisores humanos podem processar os prompts. Além disso, o código gerado por IA deve ser revisado cuidadosamente, já que pode conter imprecisões.

Feedback é bem-vindo

O Google encoraja os usuários a fornecer feedback por meio da comunidade Google Labs no Discord, no canal #data-science-agent.

Com a automação impulsionada por IA se tornando uma tendência chave na ciência de dados, o agente de ciência de dados do Google no Colab pode ajudar pesquisadores e desenvolvedores a se concentrarem mais em insights e menos na configuração de codificação. À medida que a ferramenta se expande para mais usuários e regiões, será interessante ver como ela molda o futuro da análise assistida por IA.

Diariamente, insights sobre casos de uso empresarial com o VB Daily. Se você deseja impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós te damos a scoop sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um máximo de ROI.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais newsletters do VB aqui.

Ocorreu um erro.


    vinte + 18 =

    Bolt42