Bolt42

Participe do evento confiável por líderes empresariais há quase duas décadas. O VB Transform reúne pessoas que estão construindo uma verdadeira estratégia de IA para empresas. Saiba mais


Hoje, durante seu Data + AI Summit anual, a Databricks anunciou que está tornando seu framework de ETL declarativo central como código aberto sob o nome de Apache Spark Declarative Pipelines, tornando-o disponível para toda a comunidade Apache Spark em uma próxima versão.

A Databricks lançou o framework como Delta Live Tables (DLT) em 2022 e desde então expandiu para ajudar equipes a construir e operar pipelines de dados confiáveis e escaláveis de ponta a ponta. A iniciativa de torná-lo código aberto reforça o compromisso da empresa com ecossistemas abertos, ao mesmo tempo que busca superar a rival Snowflake, que recentemente lançou seu próprio serviço Openflow para integração de dados — um componente crucial da engenharia de dados.

A oferta da Snowflake usa Apache NiFi para centralizar dados de qualquer fonte em sua plataforma, enquanto a Databricks está tornando sua tecnologia de engenharia de pipelines interna aberta, permitindo que os usuários a executem em qualquer lugar onde o Apache Spark é suportado — e não apenas em sua própria plataforma.

Declare pipelines e deixe o Spark resolver o resto

Tradicionalmente, a engenharia de dados tem estado associada a três principais desafios: autorias de pipeline complexas, sobrecargas operacionais manuais e a necessidade de manter sistemas separados para cargas de trabalho em lotes e streaming.

Com os Spark Declarative Pipelines, os engenheiros descrevem o que seu pipeline deve fazer usando SQL ou Python, e o Apache Spark cuida da execução. O framework rastreia automaticamente as dependências entre tabelas, gerencia a criação e evolução de tabelas e lida com tarefas operacionais como execução paralela, checkpoints e tentativas em produção.

“Você declara uma série de conjuntos de dados e fluxos de dados, e o Apache Spark determina o plano de execução correto,” disse Michael Armbrust, engenheiro de software distinto da Databricks, em uma entrevista ao VentureBeat.

O framework suporta dados em lote, streaming e semi-estruturados, incluindo arquivos de sistemas de armazenamento de objetos como Amazon S3, ADLS ou GCS, prontamente. Os engenheiros precisam apenas definir tanto o processamento em tempo real quanto o periódico por meio de uma única API, com definições de pipeline validadas antes da execução para detectar problemas antecipadamente — sem necessidade de manter sistemas separados.

“É projetado para as realidades dos dados modernos, como feeds de dados de mudança, barramentos de mensagens e análises em tempo real que alimentam sistemas de IA. Se o Apache Spark pode processar (os dados), estes pipelines podem lidar com isso,” explicou Armbrust. Ele acrescentou que a abordagem declarativa marca o mais recente esforço da Databricks para simplificar o Apache Spark.

“Primeiro, tornamos a computação distribuída funcional com RDDs (Resilient Distributed Datasets). Depois, tornamos a execução de consultas declarativa com Spark SQL. Trouxemos esse mesmo modelo para streaming com Structured Streaming e tornamos o armazenamento em nuvem transacional com Delta Lake. Agora, estamos dando o próximo passo ao tornar pipelines de ponta a ponta declarativos,” disse ele.

Comprovado em escala

Embora o framework de pipelines declarativos esteja prestes a ser comprometido ao código base do Spark, seu potencial já é conhecido por milhares de empresas que o utilizam como parte da solução Lakeflow da Databricks para lidar com cargas de trabalho que vão de relatórios em lote diários a aplicações de streaming de sub-segundos.

Os benefícios são bastante semelhantes em todos os casos: você perde muito menos tempo desenvolvendo pipelines ou em tarefas de manutenção e alcança um desempenho, latência ou custo muito melhores, dependendo do que você deseja otimizar.

A empresa de serviços financeiros Block usou o framework para reduzir o tempo de desenvolvimento em mais de 90%, enquanto o Navy Federal Credit Union reduziu o tempo de manutenção de pipelines em 99%. O motor Spark Structured Streaming, sobre o qual os pipelines declarativos são construídos, permite que as equipes adaptem os pipelines para suas latências específicas, até streaming em tempo real.

“Como gerente de engenharia, eu adoro o fato de que meus engenheiros podem se concentrar no que é mais importante para o negócio,” disse Jian Zhou, gerente sênior de engenharia da Navy Federal Credit Union. “É emocionante ver esse nível de inovação agora sendo aberto, tornando-o acessível a ainda mais equipes.”

Brad Turnbaugh, engenheiro de dados sênior da 84.51°, observou que o framework “facilitou o suporte tanto a lote quanto a streaming, sem a necessidade de costurar sistemas separados” enquanto reduzia a quantidade de código que sua equipe precisa gerenciar.

Abordagem diferente da Snowflake

A Snowflake, um dos maiores concorrentes da Databricks, também tomou medidas em sua conferência recente para abordar os desafios de dados, lançando um serviço de ingestão chamado Openflow. No entanto, a abordagem deles é um pouco diferente da da Databricks em termos de escopo.

O Openflow, construído sobre o Apache NiFi, foca principalmente na integração de dados e movimentação para a plataforma Snowflake. Os usuários ainda precisam limpar, transformar e agregar dados uma vez que chegarem à Snowflake. Os Spark Declarative Pipelines, por outro lado, vão além, indo da fonte ao dado utilizável.

“Spark Declarative Pipelines é construído para capacitar os usuários a criar pipelines de dados de ponta a ponta — focando na simplificação da transformação de dados e das operações complexas de pipeline que sustentam essas transformações,” disse Armbrust.

A natureza de código aberto dos Spark Declarative Pipelines também o diferencia de soluções proprietárias. Os usuários não precisam ser clientes da Databricks para aproveitar a tecnologia, alinhando-se à história da empresa de contribuir com grandes projetos como Delta Lake, MLflow e Unity Catalog para a comunidade de código aberto.

Cronograma de disponibilidade

Os Apache Spark Declarative Pipelines serão comprometidos ao código base do Apache Spark em uma próxima versão. O cronograma exato, entretanto, ainda não está claro.

“Estamos entusiasmados com a perspectiva de abrir nosso framework de pipeline declarativo desde que o lançamos,” disse Armbrust. “Nos últimos 3 anos, aprendemos muito sobre os padrões que funcionam melhor e corrigimos aqueles que precisavam de ajustes. Agora está comprovado e pronto para prosperar em aberto.”

A implementação do código aberto também coincide com a disponibilidade geral dos Databricks Lakeflow Declarative Pipelines, a versão comercial da tecnologia que inclui recursos e suporte adicionais para empresas.

O Databricks Data + AI Summit ocorrerá de 9 a 12 de junho de 2025.





    quinze − onze =




    Bolt42