3달 전

이미지 생성에서 왜곡 완화를 위한 다중 해상도 확산 모델

Qihao Liu, Zhanpeng Zeng, Ju He, Qihang Yu, Xiaohui Shen, Liang-Chieh Chen
이미지 생성에서 왜곡 완화를 위한 다중 해상도 확산 모델
초록

본 논문은 새로운 다중 해상도 네트워크와 시간에 따라 변하는 층 정규화를 도입함으로써 확산 모델에 혁신적인 개선을 제안한다. 확산 모델은 고해상도 이미지 생성에 있어 뛰어난 성능을 보이며 주목받고 있다. 기존의 접근 방식은 주로 컨볼루션 기반 U-Net 아키텍처에 의존하지만, 최근의 트랜스포머 기반 설계가 더 뛰어난 성능과 확장성을 보여주고 있다. 그러나 트랜스포머 아키텍처는 입력 데이터를 "패치화(patchification)"를 통해 토큰화하는 방식으로 인해, 자기주의(self-attention) 연산의 토큰 길이에 대해 제곱적 복잡도를 가지며, 이로 인해 시각적 정밀도와 계산 복잡도 사이에 균형을 이루는 문제가 발생한다. 더 큰 패치 크기는 주의력 계산의 효율성을 높이지만, 미세한 시각적 세부 정보를 포착하는 데 어려움을 겪어 이미지 왜곡을 초래할 수 있다. 이러한 문제를 해결하기 위해, 우리는 다중 해상도 네트워크(DiMR)를 확산 모델에 통합하여, 저해상도에서 고해상도로 점진적으로 세부 정보를 개선하는 기능을 강화하는 프레임워크를 제안한다. 또한, 시간 정보를 주입하고 우수한 성능을 달성하기 위해 시간에 따라 변하는 층 정규화(TD-LN)를 도입한다. TD-LN은 층 정규화에 시간에 따라 변화하는 파라미터를 포함함으로써 파라미터 효율적인 접근을 실현한다. 제안된 방법의 효과는 클래스 조건부 ImageNet 생성 벤치마크에서 입증되었으며, DiMR-XL 버전은 기존 확산 모델을 능가하여 ImageNet 256×256에서 FID 점수 1.70, ImageNet 512×512에서 2.89의 새로운 최고 성능을 기록했다. 프로젝트 페이지: https://qihao067.github.io/projects/DiMR