Apache Airflow

plataforma de gestió de fluxos de treball de codi obert escrita en Python, on els fluxos de treball es creen mitjançant scripts de Python

Apache Airflow és una plataforma de gestió de flux de treball de codi obert per a canalitzacions d'enginyeria de dades. Va començar a Airbnb l'octubre del 2014 [1] com una solució per gestionar els fluxos de treball cada cop més complexos de l'empresa. La creació d'Airflow va permetre a Airbnb crear i programar els seus fluxos de treball de manera programada i supervisar-los mitjançant la interfície d'usuari integrada de Airflow.[2][3] Des del principi, el projecte es va convertir en codi obert, convertint-se en un projecte Apache Incubator el març del 2016 i en un projecte d'Apache Software Foundation de primer nivell el gener de 2019.

Apache Airflow
Modifica el valor a Wikidata

Tipusplataforma de programació
Versió estable
2.10.5 (6 febrer 2025) Modifica el valor a Wikidata
LlicènciaLlicència Apache, versió 2.0
llicència Apache Modifica el valor a Wikidata
Característiques tècniques
Escrit enPython Modifica el valor a Wikidata
Equip
Desenvolupador(s)Apache Software Foundation Modifica el valor a Wikidata
Més informació
Lloc webairflow.apache.org (anglès) Modifica el valor a Wikidata
Stack ExchangeEtiqueta Modifica el valor a Wikidata

Airflow està escrit en Python i els fluxos de treball es creen mitjançant scripts de Python. El flux d'aire està dissenyat sota el principi de "configuració com a codi". Tot i que existeixen altres plataformes de flux de treball de "configuració com a codi" que utilitzen llenguatges de marcatge com XML, l'ús de Python permet als desenvolupadors importar biblioteques i classes per ajudar-los a crear els seus fluxos de treball.

Visió general

modifica

Airflow utilitza gràfics acíclics dirigits (DAG) per gestionar l'orquestració del flux de treball. Les tasques i dependències es defineixen a Python i després Airflow gestiona la programació i l'execució. Els DAG es poden executar segons un programa definit (per exemple, cada hora o diari) o basant-se en activadors d'esdeveniments externs (per exemple, un fitxer que apareix a Hive [4]). Els programadors anteriors basats en DAG com Oozie i Azkaban acostumaven a confiar en diversos fitxers de configuració i arbres del sistema de fitxers per crear un DAG, mentre que a Airflow, els DAG sovint es poden escriure en un fitxer Python.[5]

Proveïdors gestionats

modifica

Tres proveïdors notables ofereixen serveis auxiliars al voltant del projecte bàsic de codi obert.

  • Astronomer ha creat una eina SaaS i una pila d'Airflow desplegable de Kubernetes que ajuda amb la supervisió, alertes, devops i gestió de clústers.
  • Cloud Composer és una versió gestionada d'Airflow que s'executa a Google Cloud Platform (GCP) i s'integra bé amb altres serveis de GCP.
  • Amazon Web Services ofereix fluxos de treball gestionats per a Apache Airflow a partir de novembre de 2020.

Referències

modifica
  1. «Apache Airflow» (en anglès). Apache Airflow. Arxivat de l'original el August 12, 2019. [Consulta: 30 setembre 2019].
  2. Beauchemin, Maxime. «Airflow: a workflow management platform» (en anglès). Medium, 02-06-2015. Arxivat de l'original el August 13, 2019. [Consulta: 30 setembre 2019].
  3. «Airflow» (en anglès). Arxivat de l'original el July 6, 2019. [Consulta: 30 setembre 2019].
  4. Trencseni, Marton. «Airflow review» (en anglès). BytePawn, 16-01-2016. Arxivat de l'original el February 28, 2019. [Consulta: 1r octubre 2019].
  5. «AirflowProposal» (en anglès). Apache Software Foundation, 28-03-2019. [Consulta: 1r octubre 2019].