초록

현대의 잠재 확산 모델(Latent Diffusion Models, LDMs)은 주로 픽셀 수준 재구성에 최적화된 저차원 변분 오토인코더(Variational Autoencoder, VAE) 잠재 공간에서 작동한다. 시각적 생성과 이해를 통합하기 위한 최근의 주목할 만한 추세는 표현 인코더(Representation Encoder)에서 추출한 고차원 특징을 생성 잠재 변수로 채택하는 것이다. 그러나 본 연구에서는 이 패러다임에서 두 가지 근본적인 과제를 경험적으로 식별한다. 첫째, 구분적 특징 공간은 밀도 있는 정규화가 부족하여 확산 모델이 다층 공간( off-manifold )에 위치한 잠재 변수로 편향되며, 이는 정확한 객체 구조를 생성하는 데 방해가 된다. 둘째, 인코더가 본질적으로 약한 픽셀 수준 재구성 능력으로 인해 생성기(Generator)가 세부적인 기하학적 구조와 질감을 정확히 학습하는 데 어려움을 겪는다. 본 논문에서는 이해 중심의 인코더 특징을 생성 과제에 적합하게 조정하기 위한 체계적인 프레임워크를 제안한다. 우리는 잠재 공간을 정규화하기 위해 의미-픽셀 재구성 목표(semantic-pixel reconstruction objective)를 도입함으로써, 의미 정보와 세부적인 정보를 매우 컴팩트한 표현(96채널, 공간적 다운샘플링 비율 16x16)으로 압축할 수 있도록 한다. 이러한 설계는 잠재 공간이 의미적으로 풍부하면서도 최신 기술 수준의 이미지 재구성 성능을 달성할 수 있도록 하며, 동시에 정확한 생성을 위한 충분한 컴팩트함을 유지한다. 이 표현을 기반으로, 통합된 텍스트-이미지(Text-to-Image, T2I) 생성 및 이미지 편집 모델을 설계하였다. 다양한 특징 공간과의 벤치마킹을 통해, 제안한 방법이 T2I 및 편집 과제에서 최신 기술 수준의 재구성 성능, 빠른 수렴 속도, 그리고 상당한 성능 향상을 달성함을 입증하였으며, 표현 인코더가 강력한 생성 컴포넌트로 효과적으로 변환될 수 있음을 확인하였다.

소스 PDF