17일 전

웨이브릿 확산 모델은 빠르고 확장성이 뛰어난 이미지 생성 기술이다.

Hao Phung, Quan Dao, Anh Tran
웨이브릿 확산 모델은 빠르고 확장성이 뛰어난 이미지 생성 기술이다.
초록

확산 모델은 많은 경우에서 GAN보다 뛰어난 품질을 제공함으로써 고해상도 이미지 생성을 위한 강력한 해결책으로 부상하고 있다. 그러나 느린 학습 및 추론 속도는 실시간 응용 분야에 활용되는 것을 막는 주요한 성능 저하 요인이 되고 있다. 최근 제안된 DiffusionGAN 방법은 샘플링 단계 수를 수천 단계에서 몇 단계로 감소시킴으로써 모델의 실행 시간을 크게 단축시켰지만, 여전히 GAN 기반 모델에 비해 상당한 성능 차이를 보이고 있다. 본 논문은 새로운 웨이블릿 기반 확산 방식을 제안함으로써 이러한 속도 격차를 줄이는 것을 목표로 한다. 우리는 웨이블릿 분해를 통해 이미지 및 특징 수준에서 저주파 및 고주파 성분을 추출하고, 이를 적응적으로 처리함으로써 빠른 처리를 가능하게 하면서도 우수한 생성 품질을 유지한다. 더불어, 모델의 학습 수렴을 효과적으로 촉진하는 재구성 항을 도입한다. CelebA-HQ, CIFAR-10, LSUN-Church, STL-10 데이터셋을 대상으로 한 실험 결과를 통해 제안한 방법이 실시간 및 고해상도 확산 모델을 제공하는 중요한 전환점이 될 수 있음을 입증하였다. 본 연구의 코드 및 사전 학습된 체크포인트는 \url{https://github.com/VinAIResearch/WaveDiff.git}에서 공개되어 있다.