Airflow start_date, execution_date, backfill

start_date / execution_date / schedule_interval

  • start_date : 기준 시점
  • schedule_interval : DAG의 실행 주기. DAG의 시작기준은 start_date + schedule_time이 된다.
  • 만약 start_date가 10:00이고 schedule_interval이 */10 * * * * (10분)이고 DAG가 10:30분에 켜졌다면, 그럼 2번 실행하게 된다.
  • Airflow의 스케줄링과 execution_date의 의미
  • Airflow 스케줄시간 설정 (execution_date, start_date)

    Backfill

  • DAG 파일에서 catchup=True로 설정한다
  • UI - [Browse] - [DAG Runs]에서 Delete Record를 누르면 DAG를 처음 만들때와 동일하게 start_date부터 가장 최근의 날짜까지 backfill한다.
  • UI 확인 : start_date(2020-01-01)부터 가장 최근 날짜의 DAG까지 backfill하는 것을 볼 수 있다.
    image

Timezone

  • Airflow 기준시간은 UTC