초록

잠재 확산 모델(Latent Diffusion Models, LDMs)은 본질적으로 거친 구조에서 세밀한 구조로의 생성 과정을 따르며, 고수준의 의미적 구조가 세밀한 텍스처보다 약간 먼저 생성된다. 이는 사전에 형성된 의미 정보가 텍스처 생성에 있어 의미적 기준점(semantic anchor)으로서 유용할 수 있음을 시사한다. 최근 연구들은 사전 훈련된 시각 인코더로부터 얻은 의미 사전 지식(prior)을 통합하여 LDM의 성능을 더욱 향상시켰지만, 여전히 의미 정보와 VAE에 의해 인코딩된 텍스처를 동시에 노이즈 제거하는 방식을 사용하며, 이러한 순서적 특성을 무시하고 있다. 이러한 문제를 인식하고, 우리는 의미 정보의 형성을 우선시하는 새로운 잠재 확산 프레임워크인 의미 우선 확산(Semantic-First Diffusion, SFD)을 제안한다. SFD는 전용 의미 VAE(semantic VAE)를 통해 사전 훈련된 시각 인코더로부터 추출한 컴팩트한 의미 잠재 벡터와 텍스처 잠재 벡터를 조합하여 복합 잠재 벡터를 먼저 구성한다. SFD의 핵심은 의미 잠재 벡터와 텍스처 잠재 벡터를 별도의 노이즈 스케줄을 사용하여 비동기적으로 노이즈 제거하는 것이다. 즉, 의미 정보는 텍스처보다 시간적으로 앞서 처리되며, 이로 인해 텍스처 보정 과정에 더 명확한 고수준 지침을 제공하고 자연스러운 거친 구조에서 세밀한 구조로의 생성을 가능하게 한다. ImageNet 256x256 데이터셋에서 가이던스를 적용한 결과, SFD는 LightningDiT-XL 기반으로 FID 1.06, 1.0B LightningDiT-XXL 기반으로 FID 1.04를 달성하였으며, 원래 DiT 모델 대비 최대 100배 빠른 수렴 속도를 보였다. 또한 ReDi 및 VA-VAE와 같은 기존 방법들에 대해서도 성능 향상을 입증하며, 비동기적이고 의미 중심의 모델링 전략의 효과성을 입증하였다. 프로젝트 페이지 및 코드: https://yuemingpan.github.io/SFD.github.io/.

소스 PDF 코드 보기