해당 주제로 준비한 이유

<aside> 💡

Workflow 도구의 장점

Workflow Orchestration(워크플로우 오케스트레이션) 시스템을 사용하는 가장 큰 이유는 복잡한 작업 흐름을 자동화·관리·모니터링하기 위해서입니다.

데이터 파이프라인이나 머신러닝 파이프라인은 여러 단계가 순차적·조건적으로 연결되어 있기 때문에, 사람이 직접 관리하기 어렵습니다.

Airflow나 Kubeflow 같은 도구는 이러한 복잡한 작업 흐름을 체계적으로 관리할 수 있도록 도와줍니다.

</aside>

<aside> 💡

데이터 수집의 기준

AI 시스템의 첫 번째 단계는 데이터 수집입니다.

하지만 단순히 데이터를 모으는 것이 아니라, 언제/어떤 기준으로 수집을 시작·종료할 것인지에 대한 명확한 기준이 필요합니다.

예를 들면 다음과 같은 기준이 사용될 수 있습니다:

이 기준을 잘 잡아야 이후 단계(전처리 → 학습 → 배포)까지 자연스럽게 이어지는 자동화를 설계할 수 있습니다.

</aside>

<aside> 💡

데이터 학습의 기준

AI 모델은 학습 데이터가 준비되어야 학습을 수행할 수 있습니다.

Kubeflow는 이러한 학습 과정을 자동화하는 데 최적화된 도구입니다.

그렇다면 “학습을 언제 시작해야 하는가?”라는 기준을 정하는 것이 중요합니다. 예를 들면:

이러한 기준을 설계하면 Kubeflow를 통해 모델 학습을 완전히 자동화할 수 있습니다.

</aside>

🔗 이 모든 것을 연결했을 때의 핵심

AI 모델 개발 과정에서 중요한 것은 데이터 수집 → 전처리 → 학습 → 평가 → 배포의 전체 흐름을

어떤 기준으로 시작하고 종료할지 결정하는 것입니다.

이러한 기준을 잘 설계할수록 자동화 수준이 높아지고 운영 효율도 크게 증가합니다.

그래서 저는

Workflow 도구들의 역할을 비교함으로써, 데이터/AI 파이프라인에서 ‘어떤 기준으로 자동화 기준을 잡아야 하는지’에 대한 중간 지점을 찾고자 이 주제를 선택했습니다.


자동 Workflow 기준 - Airflow

  1. DAG? Airflow에서는 작업(Task)들의 순서와 의존성을 정의한 그래프
  2. Task? DAG 안에서 수행되는 최소 단위 작업 (Python, Bash, Sensor 등)

| Cron