일관성 궤적 모델: 확산의 확률 흐름 ODE 궤적 학습

일관성 모델(Consistency Models, CM)은 샘플링 속도를 향상시키는 데 기여하지만, 그 대가로 샘플 품질이 저하되며, 품질과 속도 사이의 자연스러운 트레이드오프를 제공하지 못한다. 이 제한을 극복하기 위해, CM과 스코어 기반 모델을 특수한 경우로 포함하는 일반화된 모델인 일관성 궤적 모델(Consistency Trajectory Model, CTM)을 제안한다. CTM는 단일 신경망을 학습시켜, 한 번의 전방향 계산을 통해 로그 밀도의 미분(즉, 스코어)을 출력할 수 있으며, 확산 과정에서 확률 흐름 상미분방정식(Probability Flow Ordinary Differential Equation, ODE)의 임의의 초기 시점과 최종 시점 사이를 제한 없이 탐색할 수 있다. CTM는 적대적 학습과 노이즈 제거 스코어 매칭 손실을 효율적으로 결합하여 성능을 향상시키며, CIFAR-10에서 단일 스텝 확산 모델 샘플링에 대해 새로운 최고 성능을 달성했다(최적화된 FID 1.73), 또한 64×64 해상도에서 ImageNet에서도 최고 성능(FID 1.92)을 기록했다. 또한 CTM는 ODE 해 궤적을 따라 장거리 점프를 포함하는 새로운 종류의 샘플링 기법(결정론적 및 확률론적 모두 가능)을 가능하게 한다. 계산 예산이 증가함에 따라 샘플 품질이 지속적으로 향상되며, CM에서 관찰되는 품질 저하 현상을 피한다. 더불어, CM과 달리 CTM는 스코어 함수에 접근할 수 있어 확산 커뮤니티에서 기존에 개발된 조건부/제어 가능한 생성 기법을 보다 원활하게 도입할 수 있다. 또한 이 접근성을 통해 가능도(likelihood) 계산도 가능하다. 코드는 https://github.com/sony/ctm 에 공개되어 있다.