17일 전

PaGoDA: 저해상도 확산 교사로부터 단일 단계 생성자 구축하기

Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon
PaGoDA: 저해상도 확산 교사로부터 단일 단계 생성자 구축하기
초록

확산 모델은 고차원 콘텐츠 생성에 뛰어난 성능을 보이지만, 특히 학습 과정에서 계산 비용이 매우 크다. 본 연구에서는 세 단계로 나누어 학습 비용을 감소시키는 새로운 파이프라인인 점진적 확산 오토인코더 성장(Progressive Growing of Diffusion Autoencoder, PaGoDA)을 제안한다. 이 세 단계는 하향 샘플링된 데이터에서 확산 모델을 학습하는 것, 사전 학습된 확산 모델을 다이스틸링하는 것, 그리고 점진적인 초해상도 복원을 수행하는 것으로 구성된다. 제안된 파이프라인을 통해 PaGoDA는 8배 하향 샘플링된 데이터에서 확산 모델을 학습할 때 학습 비용을 64배 감소시켰다. 추론 시에는 단일 스텝(single-step)으로 ImageNet에서 64×64부터 512×512까지의 모든 해상도에서 및 텍스트에서 이미지 생성(task)에서 최신 기술 수준의 성능을 달성하였다. PaGoDA의 파이프라인은 잠재 공간(latent space)에서 직접 적용 가능하며, 기존의 잠재 확산 모델(Latent Diffusion Models, 예: Stable Diffusion)에 사전 학습된 오토인코더와 함께 압축 기능을 추가할 수 있다. 코드는 https://github.com/sony/pagoda 에 공개되어 있다.

PaGoDA: 저해상도 확산 교사로부터 단일 단계 생성자 구축하기 | 최신 연구 논문 | HyperAI초신경