15일 전

MoVQ: 고정밀 이미지 생성을 위한 양자화 벡터 조절

Chuanxia Zheng, Long Tung Vuong, Jianfei Cai, Dinh Phung
MoVQ: 고정밀 이미지 생성을 위한 양자화 벡터 조절
초록

두 단계형 벡터 양자화(VQ) 생성 모델은 고해상도 및 고신뢰도 이미지를 합성할 수 있지만, 기존의 디코더 아키텍처에서는 이미지 내 유사한 패치들이 동일한 인덱스로 인코딩되면서, 인접한 유사 영역 간에 반복적인 아티팩트가 발생하는 문제가 있다. 이 문제를 해결하기 위해, 양자화된 벡터를 공간 조건부 정규화(spatially conditional normalization)를 통해 조절함으로써 임베딩 인덱스 맵에 공간적으로 변동하는 정보를 삽입하는 방식을 제안한다. 이를 통해 디코더가 더 사실감 있는 이미지를 생성하도록 유도할 수 있다. 또한, 모델 및 코드북의 비용을 증가시키지 않으면서도 이산 코드의 재조합 능력을 높이기 위해 다중 채널 양자화를 사용한다. 더불어 두 번째 단계에서 이산 토큰을 생성하기 위해 기존의 자동회귀 모델보다 훨씬 빠른 속도로 압축된 잠재 공간 내의 기본 사전 분포를 학습할 수 있는 마스킹 생성 이미지 트랜스포머(Masked Generative Image Transformer, MaskGIT)를 채택한다. 두 가지 벤치마크 데이터셋에서의 실험 결과, 제안하는 조절형 VQGAN이 재구성 이미지 품질을 크게 향상시키고, 높은 신뢰도의 이미지 생성이 가능함을 입증하였다.

MoVQ: 고정밀 이미지 생성을 위한 양자화 벡터 조절 | 최신 연구 논문 | HyperAI초신경