17일 전

릴레이 확산: 이미지 합성에서 해상도 간 확산 과정을 통합하기 위해

Jiayan Teng, Wendi Zheng, Ming Ding, Wenyi Hong, Jianqiao Wangni, Zhuoyi Yang, Jie Tang
릴레이 확산: 이미지 합성에서 해상도 간 확산 과정을 통합하기 위해
초록

확산 모델은 이미지 합성 분야에서 큰 성공을 거두었지만, 고해상도 생성 측면에서는 여전히 도전 과제에 직면해 있다. 이에 대해 이산 코사인 변환(Discrete Cosine Transformation)의 관점에서 분석한 결과, 해상도가 높을수록 동일한 노이즈 수준이 주파수 도메인에서 더 높은 신호 대 잡음비(Signal-to-Noise Ratio)를 초래한다는 점이 주요 원인임을 발견하였다. 본 연구에서는 이 문제를 해결하기 위해 릴레이 확산 모델(Relay Diffusion Model, RDM)을 제안한다. RDM은 블러링 확산과 블록 노이즈를 활용하여 저해상도 이미지나 노이즈를 고해상도에 해당하는 동등한 형태로 전이함으로써, 확산 과정이 순차적으로 새로운 해상도나 모델로 이어질 수 있도록 한다. 이로 인해 순수한 노이즈나 저해상도 조건에서 다시 시작할 필요 없이, 확산 과정을 원활하게 연속적으로 수행할 수 있다. RDM은 CelebA-HQ에서 최고 수준의 FID 성능과 ImageNet 256×256에서 sFID 성능을 달성하여, 이전의 ADM, LDM, DiT 등과 비교해 큰 성능 차이를 보였다. 모든 코드와 체크포인트는 \url{https://github.com/THUDM/RelayDiffusion}에서 공개되어 있다.