16일 전

MaskBit: 비트 토큰을 통한 임베딩 없는 이미지 생성

Mark Weber, Lijun Yu, Qihang Yu, Xueqing Deng, Xiaohui Shen, Daniel Cremers, Liang-Chieh Chen
MaskBit: 비트 토큰을 통한 임베딩 없는 이미지 생성
초록

클래스 조건부 이미지 생성을 위한 마스킹된 트랜스포머 모델은 확산 모델에 대한 매력적인 대안으로 부상하고 있다. 일반적으로 두 단계로 구성되며, 먼저 잠재 공간과 이미지 공간 간의 변환을 수행하는 초기 VQGAN 모델과, 이후 잠재 공간 내에서 이미지를 생성하는 트랜스포머 모델로 이루어진 이러한 프레임워크는 이미지 합성에 있어 희망적인 길을 열어주고 있다. 본 연구에서는 두 가지 주요 기여를 제시한다. 첫째, VQGAN에 대한 체계적이고 경험적인 분석을 통해 현대화된 VQGAN을 도출하였다. 둘째, 비트 토큰(비트로 양자화된 토큰)이라는 풍부한 의미를 지닌 이진 표현을 직접 활용하는 임베딩 없는 생성 네트워크를 제안하였다. 첫 번째 기여는 투명하고 재현 가능하며 고성능을 갖춘 VQGAN 모델을 제공하여 접근성을 높였으며, 현재 최고 수준의 기법들과 경쟁 가능한 성능을 달성하면서 이전에 알려지지 않았던 세부 정보들을 드러냈다. 두 번째 기여는 비트 토큰을 이용한 임베딩 없는 이미지 생성이 ImageNet 256x256 벤치마크에서 FID 1.52의 새로운 최고 성능을 달성하였으며, 단지 305M 파라미터를 가진 소형 생성자 모델을 사용함으로써 효율성과 성능의 균형을 이루었다.

MaskBit: 비트 토큰을 통한 임베딩 없는 이미지 생성 | 최신 연구 논문 | HyperAI초신경