17일 전

일관성 모델

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever
일관성 모델
초록

확산 모델은 이미지, 오디오, 영상 생성 분야에서 크게 발전을 이끌었지만, 반복적인 샘플링 과정에 의존함으로써 생성 속도가 느리다는 한계를 가지고 있다. 이러한 문제를 극복하기 위해 우리는 노이즈를 데이터로 직접 매핑함으로써 고품질 샘플을 생성하는 새로운 유형의 모델인 일관성 모델(consistency models)을 제안한다. 이 모델은 설계상 단일 스텝으로 빠르게 생성이 가능하며, 계산 자원을 투자함으로써 샘플 품질을 높일 수 있는 다단계 샘플링도 지원한다. 또한, 이러한 작업에 대해 별도의 훈련 없이도 영상 보정(image inpainting), 색상화(colorization), 초해상도(super-resolution)와 같은 제로샷 데이터 편집(zero-shot data editing)을 가능하게 한다. 일관성 모델은 사전 훈련된 확산 모델을 다이스틸(distill)하는 방식으로 훈련할 수 있으며, 또는 독립적인 생성 모델로서도 완전히 별도로 훈련될 수 있다. 광범위한 실험을 통해, 기존의 확산 모델 다이스틸 기법보다 단일 스텝 및 소수 스텝 샘플링에서 더 우수한 성능을 보임을 입증하였으며, CIFAR-10에서 1스텝 생성 시 새로운 최고 수준의 FID 점수 3.55, ImageNet 64x64에서는 6.20을 달성하였다. 독립적으로 훈련된 경우, 일관성 모델은 기존의 단일 스텝 비대립형 생성 모델보다 표준 벤치마크인 CIFAR-10, ImageNet 64x64, LSUN 256x256에서 우수한 성능을 발휘하는 새로운 생성 모델 계열이 된다.

일관성 모델 | 최신 연구 논문 | HyperAI초신경