Kubeflow - Component & Run (1)

해당 주제로 준비한 이유

<aside> 💡

Workflow 도구의 장점

Workflow Orchestration(워크플로우 오케스트레이션) 시스템을 사용하는 가장 큰 이유는 복잡한 작업 흐름을 자동화·관리·모니터링하기 위해서입니다.

데이터 파이프라인이나 머신러닝 파이프라인은 여러 단계가 순차적·조건적으로 연결되어 있기 때문에, 사람이 직접 관리하기 어렵습니다.

Airflow나 Kubeflow 같은 도구는 이러한 복잡한 작업 흐름을 체계적으로 관리할 수 있도록 도와줍니다.

</aside>

<aside> 💡

데이터 수집의 기준

AI 시스템의 첫 번째 단계는 데이터 수집입니다.

하지만 단순히 데이터를 모으는 것이 아니라, 언제/어떤 기준으로 수집을 시작·종료할 것인지에 대한 명확한 기준이 필요합니다.

예를 들면 다음과 같은 기준이 사용될 수 있습니다:

이 기준을 잘 잡아야 이후 단계(전처리 → 학습 → 배포)까지 자연스럽게 이어지는 자동화를 설계할 수 있습니다.

</aside>

<aside> 💡

데이터 학습의 기준

AI 모델은 학습 데이터가 준비되어야 학습을 수행할 수 있습니다.

Kubeflow는 이러한 학습 과정을 자동화하는 데 최적화된 도구입니다.

그렇다면 “학습을 언제 시작해야 하는가?”라는 기준을 정하는 것이 중요합니다. 예를 들면:

이러한 기준을 설계하면 Kubeflow를 통해 모델 학습을 완전히 자동화할 수 있습니다.

</aside>

AI 모델 개발 과정에서 중요한 것은 데이터 수집 → 전처리 → 학습 → 평가 → 배포의 전체 흐름을

어떤 기준으로 시작하고 종료할지 결정하는 것입니다.

이러한 기준을 잘 설계할수록 자동화 수준이 높아지고 운영 효율도 크게 증가합니다.

그래서 저는

예전에 공부했던 Airflow를 다시 떠올리면서, 머신러닝 자동화를 위한 Kubeflow와 비교해보면, 각 단계의 기준을 더 잘 이해하고 자동화 설계를 더 명확하게 할 수 있다고 생각했습니다.

Workflow 도구들의 역할을 비교함으로써, 데이터/AI 파이프라인에서 ‘어떤 기준으로 자동화 기준을 잡아야 하는지’에 대한 중간 지점을 찾고자 이 주제를 선택했습니다.