
플로우 매칭(Flow matching)은 최근 생성 모델을 훈련하기 위한 프레임워크로, 확산 기반 모델에 비해 상대적으로 학습이 용이하면서도 놀라운 경험적 성능을 보여주고 있다. 이러한 장점에도 불구하고, 기존 방법들은 픽셀 공간에서 사전 구축된 솔버의 높은 계산 비용과 많은 함수 평가 횟수라는 문제에 직면해 있다. 또한 최근 몇 년간 잠재 공간 기반 생성 방법이 큰 성공을 거두었음에도 불구하고, 이 분야에서 해당 모델 유형은 여전히 탐색이 부족한 상태이다. 본 연구에서는 사전 훈련된 오토인코더의 잠재 공간에서 플로우 매칭을 적용하는 방안을 제안한다. 이는 고해상도 이미지 합성에 있어 계산 효율성과 확장성 측면에서 향상된 성능을 제공하며, 제한된 계산 자원에서도 플로우 매칭 학습이 가능하게 하면서도 품질과 유연성을 유지할 수 있다. 더불어, 본 연구는 라벨 조건 기반 이미지 생성, 이미지 보정(inpainting), 세밀한 의미 정보에서 이미지 생성 등 다양한 조건부 생성 작업에 다양한 조건을 플로우 매칭에 통합하는 데 있어 선도적인 기여를 한다. 광범위한 실험을 통해 제안된 방법은 CelebA-HQ, FFHQ, LSUN Church & Bedroom, ImageNet 등 다양한 데이터셋에서 정량적·정성적 측면에서 뛰어난 성능을 입증하였다. 또한 재구성된 잠재 플로우 분포와 진짜 데이터 분포 사이의 워셔스타인-2(Wasserstein-2) 거리에 대한 이론적 제어를 제시하며, 이 거리가 잠재 플로우 매칭 목적 함수에 의해 상한으로 제약됨을 보였다. 본 연구의 코드는 https://github.com/VinAIResearch/LFM.git 에 공개될 예정이다.