Databricks lança código aberto de framework ETL declarativo que acelera em 90% a construção de pipelines

Participe do evento confiável por líderes empresariais há quase duas décadas. O VB Transform reúne pessoas que estão construindo uma verdadeira estratégia de IA para empresas. Saiba mais

Hoje, durante seu Data + AI Summit anual, a Databricks anunciou que está tornando seu framework de ETL declarativo central como código aberto sob o nome de Apache Spark Declarative Pipelines, tornando-o disponível para toda a comunidade Apache Spark em uma próxima versão.

A Databricks lançou o framework como Delta Live Tables (DLT) em 2022 e desde então expandiu para ajudar equipes a construir e operar pipelines de dados confiáveis e escaláveis de ponta a ponta. A iniciativa de torná-lo código aberto reforça o compromisso da empresa com ecossistemas abertos, ao mesmo tempo que busca superar a rival Snowflake, que recentemente lançou seu próprio serviço Openflow para integração de dados — um componente crucial da engenharia de dados.

A oferta da Snowflake usa Apache NiFi para centralizar dados de qualquer fonte em sua plataforma, enquanto a Databricks está tornando sua tecnologia de engenharia de pipelines interna aberta, permitindo que os usuários a executem em qualquer lugar onde o Apache Spark é suportado — e não apenas em sua própria plataforma.

Declare pipelines e deixe o Spark resolver o resto

Tradicionalmente, a engenharia de dados tem estado associada a três principais desafios: autorias de pipeline complexas, sobrecargas operacionais manuais e a necessidade de manter sistemas separados para cargas de trabalho em lotes e streaming.

Com os Spark Declarative Pipelines, os engenheiros descrevem o que seu pipeline deve fazer usando SQL ou Python, e o Apache Spark cuida da execução. O framework rastreia automaticamente as dependências entre tabelas, gerencia a criação e evolução de tabelas e lida com tarefas operacionais como execução paralela, checkpoints e tentativas em produção.

“Você declara uma série de conjuntos de dados e fluxos de dados, e o Apache Spark determina o plano de execução correto,” disse Michael Armbrust, engenheiro de software distinto da Databricks, em uma entrevista ao VentureBeat.

O framework suporta dados em lote, streaming e semi-estruturados, incluindo arquivos de sistemas de armazenamento de objetos como Amazon S3, ADLS ou GCS, prontamente. Os engenheiros precisam apenas definir tanto o processamento em tempo real quanto o periódico por meio de uma única API, com definições de pipeline validadas antes da execução para detectar problemas antecipadamente — sem necessidade de manter sistemas separados.

“É projetado para as realidades dos dados modernos, como feeds de dados de mudança, barramentos de mensagens e análises em tempo real que alimentam sistemas de IA. Se o Apache Spark pode processar (os dados), estes pipelines podem lidar com isso,” explicou Armbrust. Ele acrescentou que a abordagem declarativa marca o mais recente esforço da Databricks para simplificar o Apache Spark.

“Primeiro, tornamos a computação distribuída funcional com RDDs (Resilient Distributed Datasets). Depois, tornamos a execução de consultas declarativa com Spark SQL. Trouxemos esse mesmo modelo para streaming com Structured Streaming e tornamos o armazenamento em nuvem transacional com Delta Lake. Agora, estamos dando o próximo passo ao tornar pipelines de ponta a ponta declarativos,” disse ele.

Comprovado em escala

Embora o framework de pipelines declarativos esteja prestes a ser comprometido ao código base do Spark, seu potencial já é conhecido por milhares de empresas que o utilizam como parte da solução Lakeflow da Databricks para lidar com cargas de trabalho que vão de relatórios em lote diários a aplicações de streaming de sub-segundos.

Os benefícios são bastante semelhantes em todos os casos: você perde muito menos tempo desenvolvendo pipelines ou em tarefas de manutenção e alcança um desempenho, latência ou custo muito melhores, dependendo do que você deseja otimizar.

A empresa de serviços financeiros Block usou o framework para reduzir o tempo de desenvolvimento em mais de 90%, enquanto o Navy Federal Credit Union reduziu o tempo de manutenção de pipelines em 99%. O motor Spark Structured Streaming, sobre o qual os pipelines declarativos são construídos, permite que as equipes adaptem os pipelines para suas latências específicas, até streaming em tempo real.

“Como gerente de engenharia, eu adoro o fato de que meus engenheiros podem se concentrar no que é mais importante para o negócio,” disse Jian Zhou, gerente sênior de engenharia da Navy Federal Credit Union. “É emocionante ver esse nível de inovação agora sendo aberto, tornando-o acessível a ainda mais equipes.”

Brad Turnbaugh, engenheiro de dados sênior da 84.51°, observou que o framework “facilitou o suporte tanto a lote quanto a streaming, sem a necessidade de costurar sistemas separados” enquanto reduzia a quantidade de código que sua equipe precisa gerenciar.

Abordagem diferente da Snowflake

A Snowflake, um dos maiores concorrentes da Databricks, também tomou medidas em sua conferência recente para abordar os desafios de dados, lançando um serviço de ingestão chamado Openflow. No entanto, a abordagem deles é um pouco diferente da da Databricks em termos de escopo.

O Openflow, construído sobre o Apache NiFi, foca principalmente na integração de dados e movimentação para a plataforma Snowflake. Os usuários ainda precisam limpar, transformar e agregar dados uma vez que chegarem à Snowflake. Os Spark Declarative Pipelines, por outro lado, vão além, indo da fonte ao dado utilizável.

“Spark Declarative Pipelines é construído para capacitar os usuários a criar pipelines de dados de ponta a ponta — focando na simplificação da transformação de dados e das operações complexas de pipeline que sustentam essas transformações,” disse Armbrust.

A natureza de código aberto dos Spark Declarative Pipelines também o diferencia de soluções proprietárias. Os usuários não precisam ser clientes da Databricks para aproveitar a tecnologia, alinhando-se à história da empresa de contribuir com grandes projetos como Delta Lake, MLflow e Unity Catalog para a comunidade de código aberto.

Cronograma de disponibilidade

Os Apache Spark Declarative Pipelines serão comprometidos ao código base do Apache Spark em uma próxima versão. O cronograma exato, entretanto, ainda não está claro.

“Estamos entusiasmados com a perspectiva de abrir nosso framework de pipeline declarativo desde que o lançamos,” disse Armbrust. “Nos últimos 3 anos, aprendemos muito sobre os padrões que funcionam melhor e corrigimos aqueles que precisavam de ajustes. Agora está comprovado e pronto para prosperar em aberto.”

A implementação do código aberto também coincide com a disponibilidade geral dos Databricks Lakeflow Declarative Pipelines, a versão comercial da tecnologia que inclui recursos e suporte adicionais para empresas.

O Databricks Data + AI Summit ocorrerá de 9 a 12 de junho de 2025.

Insights diários sobre casos de uso empresarial com VB Daily

Se você deseja impressionar seu chefe, o VB Daily tem tudo o que você precisa. Oferecemos informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para obter o máximo de ROI.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.

Conteúdo relacionado

BusinessInteligência artificial

Os modelos de raciocínio realmente pensam ou não? Pesquisa da Apple gera um debate acalorado.

[the_ad id="145565"] Participe do evento confiável pelos líderes empresariais há quase duas décadas. O VB Transform reúne pessoas que constroem uma verdadeira estratégia de IA…

BusinessInteligência artificial

Além da arquitetura GPT: Por que a abordagem de Difusão do Google pode redefinir a implementação de LLMs

[the_ad id="145565"] Participe do evento confiável por líderes empresariais há quase duas décadas. O VB Transform reúne pessoas que estão construindo uma verdadeira estratégia…

BusinessInteligência artificial

O Ato RISE do Senador exigiria que desenvolvedores de IA listassem dados de treinamento e métodos de avaliação em troca de ‘porto seguro’ contra processos judiciais.

[the_ad id="145565"] Participe do evento confiável por líderes empresariais há quase duas décadas. O VB Transform reúne as pessoas que estão construindo uma verdadeira…