HyperAIHyperAI

Command Palette

Search for a command to run...

의미론이 길을 제시한다: 비동기 잠재 확산을 통한 의미론적 및 텍스처 모델링의 조화

Yueming Pan Ruoyu Feng Qi Dai Yuqi Wang Wenfeng Lin Mingyu Guo Chong Luo Nanning Zheng

초록

잠재 확산 모델(Latent Diffusion Models, LDMs)은 본질적으로 거친 구조에서 세밀한 구조로의 생성 과정을 따르며, 고수준의 의미적 구조가 세밀한 텍스처보다 약간 먼저 생성된다. 이는 사전에 형성된 의미 정보가 텍스처 생성에 있어 의미적 기준점(semantic anchor)으로서 유용할 수 있음을 시사한다. 최근 연구들은 사전 훈련된 시각 인코더로부터 얻은 의미 사전 지식(prior)을 통합하여 LDM의 성능을 더욱 향상시켰지만, 여전히 의미 정보와 VAE에 의해 인코딩된 텍스처를 동시에 노이즈 제거하는 방식을 사용하며, 이러한 순서적 특성을 무시하고 있다. 이러한 문제를 인식하고, 우리는 의미 정보의 형성을 우선시하는 새로운 잠재 확산 프레임워크인 의미 우선 확산(Semantic-First Diffusion, SFD)을 제안한다. SFD는 전용 의미 VAE(semantic VAE)를 통해 사전 훈련된 시각 인코더로부터 추출한 컴팩트한 의미 잠재 벡터와 텍스처 잠재 벡터를 조합하여 복합 잠재 벡터를 먼저 구성한다. SFD의 핵심은 의미 잠재 벡터와 텍스처 잠재 벡터를 별도의 노이즈 스케줄을 사용하여 비동기적으로 노이즈 제거하는 것이다. 즉, 의미 정보는 텍스처보다 시간적으로 앞서 처리되며, 이로 인해 텍스처 보정 과정에 더 명확한 고수준 지침을 제공하고 자연스러운 거친 구조에서 세밀한 구조로의 생성을 가능하게 한다. ImageNet 256x256 데이터셋에서 가이던스를 적용한 결과, SFD는 LightningDiT-XL 기반으로 FID 1.06, 1.0B LightningDiT-XXL 기반으로 FID 1.04를 달성하였으며, 원래 DiT 모델 대비 최대 100배 빠른 수렴 속도를 보였다. 또한 ReDi 및 VA-VAE와 같은 기존 방법들에 대해서도 성능 향상을 입증하며, 비동기적이고 의미 중심의 모델링 전략의 효과성을 입증하였다. 프로젝트 페이지 및 코드: https://yuemingpan.github.io/SFD.github.io/.


AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
의미론이 길을 제시한다: 비동기 잠재 확산을 통한 의미론적 및 텍스처 모델링의 조화 | 문서 | HyperAI초신경