Este repositorio está dedicado a pruebas y laboratorios realizados para aprender y profundizar en Apache Airflow, una herramienta clave para la orquestación de flujos de trabajo. Fue utilizado como parte de mi preparación para la certificación Google Professional Data Engineer, donde trabajé con GCP Cloud Composer, un servicio basado en Apache Airflow.
Durante mi preparación para la certificación, decidí instalar y configurar Apache Airflow en una distribución de Ubuntu 22.04. Esto me permitió:
- Comprender en profundidad cómo funciona Apache Airflow antes de usarlo como servicio gestionado en Google Cloud Composer.
- Realizar pruebas y laboratorios prácticos para explorar sus capacidades y limitaciones.
Este repositorio incluye:
- DAGs de ejemplo: Flujos de trabajo creados para probar diferentes funcionalidades de Airflow.
- Configuraciones: Archivos de configuración utilizados para instalar y ejecutar Apache Airflow en Ubuntu 22.04.
- Pruebas: Scripts y experimentos realizados para entender conceptos clave como:
- Programación de tareas.
- Integración con servicios externos.
- Manejo de dependencias entre tareas.
Si deseas replicar el entorno utilizado, sigue estos pasos para instalar Apache Airflow en Ubuntu 22.04:
- Actualiza los paquetes del sistema:
sudo apt update && sudo apt upgrade
- Instala los requisitos previos:
sudo apt install python3-pip python3-venv
- Crea un entorno virtual e instala Apache Airflow:
python3 -m venv airflow_env source airflow_env/bin/activate pip install apache-airflow
- Inicializa la base de datos y ejecuta el servidor web:
airflow db init airflow webserver
- Accede a la interfaz web de Airflow en
http://localhost:8080
. - Carga los DAGs de ejemplo incluidos en este repositorio en el directorio
dags/
. - Ejecuta y monitorea los flujos de trabajo desde la interfaz.
- Documentación oficial de Apache Airflow
- Google Cloud Composer
- Guía de preparación para la certificación Google Professional Data Engineer
Este repositorio es parte de mi aprendizaje continuo en tecnologías de orquestación de datos y servicios en la nube. ¡Espero que también te sea útil si estás explorando Apache Airflow!