Participe das nossas newsletters diárias e semanais para obter as últimas atualizações e conteúdos exclusivos sobre cobertura de IA de ponta. Saiba mais
Mover dados de diversas fontes para o local apropriado para uso em IA é uma tarefa desafiadora. É aí que entram as tecnologias de orquestração de dados como Apache Airflow.
Atualmente, a comunidade do Apache Airflow lançou sua maior atualização em anos, com a estreia da versão 3.0. Este novo lançamento marca a primeira atualização de versão importante em quatro anos. No entanto, o Airflow não esteve parado, incrementando constantemente a série 2.x, incluindo as atualizações 2.9 e 2.10 em 2024, que tiveram um forte foco em IA.
Nos últimos anos, os engenheiros de dados adotaram o Apache Airflow como sua ferramenta padrão. O Apache Airflow se estabeleceu como a principal plataforma de orquestração de fluxos de trabalho de código aberto, com mais de 3.000 colaboradores e ampla adoção em empresas da Fortune 500. Existem também vários serviços comerciais baseados na plataforma, incluindo Astronomer Astro, Google Cloud Composer, Amazon Managed Workflows for Apache Airflow (MWAA) e Microsoft Azure Data Factory Managed Airflow, entre outros.
À medida que as organizações lutam para coordenar fluxos de trabalho de dados em sistemas e nuvens díspares, além de cargas de trabalho de IA cada vez mais complexas, as necessidades das organizações estão crescendo. O Apache Airflow 3.0 aborda necessidades empresariais críticas com uma reformulação arquitetônica que pode melhorar a forma como as organizações constroem e implantam aplicações de dados.
“Para mim, o Airflow 3 é um novo começo, uma base para um conjunto muito maior de capacidades,” disse Vikram Koka, membro do Comitê de Gestão do Projeto do Apache Airflow e Diretor de Estratégia da Astronomer, em uma entrevista exclusiva ao VentureBeat. “Esta é quase uma refatoração completa baseada no que as empresas nos disseram que precisavam para o próximo nível de adoção crítica para a missão.”
A complexidade dos dados empresariais mudou as necessidades de orquestração de dados
À medida que as empresas dependem cada vez mais da tomada de decisões baseada em dados, a complexidade dos fluxos de trabalho de dados explodiu. As organizações agora gerenciam pipelines intricados que abrangem múltiplos ambientes de nuvem, diversas fontes de dados e cargas de trabalho de IA cada vez mais sofisticadas.
O Airflow 3.0 surge como uma solução projetada especificamente para atender a essas necessidades empresariais em evolução. Ao contrário das versões anteriores, este lançamento se desvincula de um pacote monolítico, introduzindo um modelo de cliente distribuído que oferece flexibilidade e segurança. Essa nova arquitetura permite que as empresas:
- Executem tarefas em múltiplos ambientes de nuvem.
- Implementem controles de segurança granulares.
- Suportem diversas linguagens de programação.
- Possibilitem implantações verdadeiramente multi-nuvem.
O suporte expandido a linguagens do Airflow 3.0 também é interessante. Embora as versões anteriores fossem principalmente centradas em Python, o novo lançamento suporta nativamente várias linguagens de programação.
O Airflow 3.0 está programado para suportar Python e Go, com suporte planejado para Java, TypeScript e Rust. Essa abordagem significa que os engenheiros de dados podem escrever tarefas na linguagem de programação de sua preferência, reduzindo a fricção no desenvolvimento e na integração de fluxos de trabalho.
Capacidades orientadas a eventos transformam fluxos de trabalho de dados
O Airflow tradicionalmente se destacou no processamento em lote agendado, mas as empresas precisam cada vez mais de capacidades de processamento de dados em tempo real. O Airflow 3.0 agora suporta essa necessidade.
“Uma mudança chave no Airflow 3 é o que chamamos de agendamento orientado a eventos,” explicou Koka.
Em vez de executar um trabalho de processamento de dados a cada hora, o Airflow agora inicia automaticamente o trabalho quando um determinado arquivo de dados é carregado ou quando uma mensagem específica aparece. Isso pode incluir dados carregados em um bucket de armazenamento em nuvem Amazon S3 ou uma mensagem de dados em streaming no Apache Kafka.
A capacidade de agendamento orientado a eventos aborda uma lacuna crítica entre as ferramentas ETL [Extração, Transformação e Carga] tradicionais e os frameworks de processamento de streaming como Apache Flink ou Apache Spark Structured Streaming, permitindo que as organizações utilizem uma única camada de orquestração para fluxos de trabalho agendados e acionados por eventos.
O Airflow vai acelerar a execução da inferência de IA empresarial e compor IA
A orquestração de dados orientada a eventos também ajudará o Airflow a suportar a execução rápida de inferências.
Como exemplo, Koka detalhou um caso de uso onde a inferência em tempo real é utilizada para serviços profissionais como rastreamento de tempo legal. Nesse cenário, o Airflow pode ser utilizado para ajudar a coletar dados brutos de fontes como calendários, e-mails e documentos. Um modelo de linguagem grande (LLM) pode ser utilizado para transformar informações não estruturadas em dados estruturados. Outro modelo pré-treinado pode então ser utilizado para analisar os dados estruturados de rastreamento de tempo, determinar se o trabalho é cobrável e, em seguida, atribuir os códigos e taxas de cobrança apropriados.
Koka se referiu a essa abordagem como um sistema de IA composta – um fluxo de trabalho que reúne diferentes modelos de IA para completar uma tarefa complexa de maneira eficiente e inteligente. A arquitetura orientada a eventos do Airflow 3.0 torna possível esse tipo de processo de inferência em tempo real e em múltiplas etapas em várias aplicações empresariais.
A IA composta é uma abordagem que foi inicialmente definida pelo Berkeley Artificial Intelligence Research Center em 2024 e é um pouco diferente da IA agente. Koka explicou que a IA agente permite a tomada de decisões autônoma por IA, enquanto a IA composta possui fluxos de trabalho predefinidos que são mais previsíveis e confiáveis para casos de uso empresarial.
Alinhando-se com o Airflow: como o Texas Rangers pretende se beneficiar
Entre os muitos usuários do Airflow está o Texas Rangers, equipe de beisebol da liga principal.
Oliver Dykstra, engenheiro de dados full-stack do Texas Rangers Baseball Club, disse ao VentureBeat que a equipe utiliza o Airflow hospedado na plataforma Astro da Astronomer como o ‘centro nervoso’ das operações de dados do beisebol. Ele observou que todo o desenvolvimento de jogadores, contratos, análises e, claro, os dados dos jogos são orquestrados através do Airflow.
“Estamos ansiosos para atualizar para o Airflow 3 e suas melhorias em agendamento orientado a eventos, observabilidade e linhagem de dados,” declarou Dykstra. “Como já dependemos do Airflow para gerenciar nossos pipelines críticos de IA/ML, a eficiência e confiabilidade adicionais do Airflow 3 ajudarão a aumentar a confiança e a resiliência desses produtos de dados em toda a nossa organização.”
O que isso significa para a adoção de IA empresarial
Para tomadores de decisão técnica que estão avaliando a estratégia de orquestração de dados, o Airflow 3.0 oferece benefícios práticos que podem ser implementados em fases.
O primeiro passo é avaliar os fluxos de dados atuais que poderiam se beneficiar das novas capacidades orientadas a eventos. As organizações podem identificar pipelines de dados que atualmente acionam trabalhos agendados, mas que poderiam ser gerenciados de forma mais eficiente com gatilhos baseados em eventos. Essa mudança pode reduzir significativamente a latência de processamento ao eliminar operações de polling desnecessárias.
Em seguida, os líderes de tecnologia devem avaliar seus ambientes de desenvolvimento para determinar se o novo suporte a linguagens do Airflow poderia consolidar ferramentas de orquestração fragmentadas. Equipes que atualmente mantêm ferramentas de orquestração separadas para diferentes ambientes de linguagem podem começar a planejar uma estratégia de migração para simplificar sua pilha tecnológica.
Para as empresas que estão liderando a implementação de IA, o Airflow 3.0 representa um componente crítico da infraestrutura que pode abordar um desafio significativo na adoção de IA: orquestrar fluxos de trabalho complexos de IA em múltiplas etapas em escala empresarial. A capacidade da plataforma de coordenar sistemas de IA compostos pode ajudar a habilitar organizações a irem além da prova de conceito para a implementação de IA em toda a empresa, com a governança, segurança e confiabilidade adequadas.
Insights diários sobre casos de uso de negócios com o VB Daily
Se você quer impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós lhe damos a visão interna sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para o máximo ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters da VB aqui.
Ocorreu um erro.

Conteúdo relacionado
A estratégia de IA do Reddit é para o público do Google, não apenas para os navegadores da comunidade.
[the_ad id="145565"] O CEO do Reddit, Steve Huffman, afirma que existem dois tipos de pessoas que acessam a plataforma de mídia social: os Scrollers e os Seekers. Os Scrollers…
O CEO da Amazon anuncia que 100.000 usuários agora têm Alexa+
[the_ad id="145565"] A assistente digital atualizada da Amazon, impulsionada por IA generativa, Alexa+, foi lançada para mais de 100.000 usuários, afirmou o CEO Andy Jassy na…
Estudo acusa a LM Arena de ajudar os principais laboratórios de IA a manipular seu benchmark.
[the_ad id="145565"] Um novo artigo do laboratório de IA Cohere, Stanford, MIT e Ai2 acusa a LM Arena, a organização por trás do popular benchmark de IA crowdsourced Chatbot…