17일 전

자르기 일관성 모델

Sangyun Lee, Yilun Xu, Tomas Geffner, Giulia Fanti, Karsten Kreis, Arash Vahdat, Weili Nie
자르기 일관성 모델
초록

최근 일관성 모델(consistency models)이 확산 모델의 샘플링 속도를 가속화하기 위해 초기 노이즈로부터 확률 흐름 상미분방정식(PF ODE)의 해(즉, 데이터)를 직접 예측하는 방식으로 도입되었다. 그러나 일관성 모델의 학습 과정은 PF ODE 경로 상의 모든 중간 점들을 그에 해당하는 종점으로 매핑하는 것을 요구한다. 이 작업은 최종 목표인 단일 단계 생성(한 번의 단계로 데이터를 생성하는 것)보다 훨씬 더 도전적인 과제이며, 단일 단계 생성은 오직 PF ODE의 노이즈에서 데이터로의 매핑에만 초점이 있다. 우리는 경험적으로 이러한 학습 방식이 일관성 모델의 단일 단계 생성 성능을 제한함을 발견하였다. 이 문제를 해결하기 위해, 우리는 일관성 학습을 단순화된 시간 범위로 일반화하였으며, 이는 모델이 초기 시간 단계에서의 노이즈 제거 작업을 무시하고 생성 성능에 집중할 수 있도록 한다. 본 연구에서는 새로운 형태의 일관성 함수 파라미터화 방식과, 단순화된 시간 범위 학습이 자명한 해로 수렴하는 것을 방지하는 이단계 학습 절차를 제안한다. CIFAR-10 및 ImageNet $64\times64$ 데이터셋에서의 실험 결과, 기존 최고 성능의 일관성 모델인 iCT-deep보다도 더 작은 네트워크 크기(2배 이상 작음)를 사용하면서도 더 우수한 단일 및 이단계 FID 성능을 달성함을 확인하였다. 프로젝트 페이지: https://truncated-cm.github.io/