17일 전

드래프트 앤 리바이즈: 맥락 기반 RQ-Transformer을 활용한 효과적인 이미지 생성

Doyup Lee, Chiheon Kim, Saehoon Kim, Minsu Cho, Wook-Shin Han
드래프트 앤 리바이즈: 맥락 기반 RQ-Transformer을 활용한 효과적인 이미지 생성
초록

자기회귀 모델은 이미지 생성 분야에서 희망적인 성과를 거두었지만, 단방향 생성 방식으로 인해 생성된 이미지가 전역적인 맥락을 충분히 반영하지 못하는 문제가 있다. 이 문제를 해결하기 위해, 생성 과정 중 전역적인 맥락을 고려할 수 있는 '초안-수정(Draft-and-Revise)' 프레임워크와 맥락 기반 RQ-Transformer를 제안한다. 일반화된 VQ-VAE의 일종인 RQ-VAE는 고해상도 이미지를 이산적 코드 스택의 시퀀스로 표현한다. 이후 시퀀스 내 코드 스택들을 무작위로 마스킹한 후, 맥락 기반 RQ-Transformer는 마스킹되지 않은 이미지의 맥락 정보를 기반으로 마스킹된 코드 스택을 보완하도록 학습된다. 이후 Contextual RQ-Transformer는 제안한 이단계 디코딩 방식인 '초안-수정'을 활용하여 이미지를 생성하면서 생성 과정에서 이미지의 전역적 맥락을 효과적으로 활용한다. 구체적으로, 초안 단계에서는 이미지의 품질은 다소 낮지만 다양한 이미지를 먼저 생성하는 데 집중한다. 이후 수정 단계에서는 이미지 품질을 반복적으로 개선하면서도 생성된 이미지의 전역적 맥락을 유지한다. 실험 결과, 본 방법은 조건부 이미지 생성에서 최신 기준(SOTA) 성능을 달성하였다. 또한, 초안-수정 디코딩이 이미지 생성에서 품질과 다양성 간의 트레이드오프를 효과적으로 조절함으로써 높은 성능을 달성할 수 있음을 검증하였다.