Command Palette
Search for a command to run...
InfGen: 확장 가능한 이미지 합성을 위한 해상도 무관한 패러다임
InfGen: 확장 가능한 이미지 합성을 위한 해상도 무관한 패러다임
Tao Han Wanghan Xu Junchao Gong Xiaoyu Yue Song Guo Luping Zhou Lei Bai
초록
임의 해상도 이미지 생성은 다양한 기기 간 일관된 시각적 경험을 제공하며, 제작자와 소비자 모두에게 광범위한 응용 가능성을 지닌다. 현재의 확산 모델은 해상도가 증가할수록 계산량이 제곱적으로 증가하여, 4K 이미지 생성에 100초 이상의 지연이 발생한다. 이를 해결하기 위해 우리는 잠재 확산 모델의 두 번째 세대를 탐구하며, 확산 모델이 생성하는 고정된 잠재 표현을 콘텐츠 표현으로 간주하고, 단일 단계 생성기(one-step generator)를 활용해 작고 효율적인 잠재 표현으로 임의 해상도 이미지를 복원하는 방안을 제안한다. 이를 바탕으로 우리는 기존 VAE 디코더를 대체하는 새로운 생성기로 구성된 InfGen을 제안한다. 이는 재학습 없이 고정된 크기의 잠재 표현에서 임의의 해상도 이미지를 생성할 수 있으며, 생성 과정을 단순화하고 계산 복잡도를 감소시킬 뿐만 아니라, 동일한 잠재 공간을 사용하는 모든 모델에 적용 가능하다. 실험 결과, InfGen은 다양한 기존 모델을 임의 고해상도 생성 시대에 진입시킬 수 있으며, 4K 이미지 생성 시간을 10초 이하로 단축함으로써 성능을 크게 향상시켰다.