Command Palette
Search for a command to run...
Aleksandr Razin Danil Kazantsev Ilya Makarov

초록
확산 모델은 직접 고해상도 샘플링이 느리고 비용이 많이 들기 때문에 훈련 해상도를 초과해 확장하는 데 어려움을 겪는다. 반면, 디코딩 후에 작동하는 사후 이미지 초해상도(IST, image super-resolution)는 아티팩트를 유발하고 추가적인 지연을 초래한다. 본 연구에서는 최종 VAE 디코딩 단계 전에 생성기의 잠재 코드(latent code)에 직접 초해상도를 수행하는 경량 모듈인 Latent Upscaler Adapter(LUA)를 제안한다. LUA는 기존 모델의 수정이나 추가 확산 단계 없이 즉시 삽입 가능한 구성 요소로, 잠재 공간에서 단일 전방전파(pass)를 통해 고해상도 생성을 가능하게 한다. 스케일별 픽셀 셔플 헤드를 갖춘 공유된 Swin 스타일 백본은 2배 및 4배 확대를 지원하며, 이미지 공간 초해상도 기반 모델들과 호환되며, 거의 3배 낮은 디코딩 및 확대 시간으로 동등한 인지적 품질을 달성한다(512픽셀에서 1024픽셀 생성 시, 동일한 SwinIR 아키텍처를 사용한 픽셀 공간 초해상도 대비 +0.42초 추가 시간 대비 1.87초 소요). 또한 LUA는 다양한 VAE의 잠재 공간 간에도 뛰어난 일반화 성능을 보이며, 새로운 디코더에 대해 다시 훈련할 필요 없이 쉽게 배포할 수 있다. 광범위한 실험을 통해 LUA는 원본 고해상도 생성의 정밀도에 거의 근접하면서도, 현대 확산 파이프라인에서 확장 가능하고 고정밀 이미지 생성을 위한 실용적이고 효율적인 경로를 제공함을 입증하였다.