MaskGIT: 마스크된 생성 이미지 트랜스포머

생성 변환기(generative transformers)는 고해상도와 고충실도 이미지를 생성하는 데 있어 컴퓨터 비전 커뮤니티에서 급속한 인기 상승을 경험하고 있습니다. 그러나 지금까지 가장 우수한 생성 변환기 모델들조차 여전히 이미지를 단순히 토큰의 시퀀스로 처리하며, 래스터 스캔 순서(raster scan ordering)에 따라(즉, 줄별로) 이미지를 순차적으로 디코딩합니다. 우리는 이 전략이 최적화되어 있지 않고 효율적이지 않다고 판단하였습니다. 본 논문에서는 모든 방향의 토큰에 주목하여 무작위로 마스킹된 토큰을 예측하도록 학습하는 양방향 변환기 디코더를 사용한 새로운 이미지 생성 패러다임을 제안합니다. 이를 마스크GIT(MaskGIT)이라고 명명하였습니다. 학습 과정에서 마스크GIT은 모든 방향의 토큰에 주목하여 무작위로 마스킹된 토큰을 예측하도록 학습됩니다. 추론 시에는 모델이 먼저 이미지의 모든 토큰을 동시에 생성한 후, 이전 생성 결과를 조건으로 하여 반복적으로 이미지를 개선합니다. 우리의 실험 결과는 마스크GIT이 ImageNet 데이터셋에서 기존 최고의 트랜스포머 모델보다 크게 우수함을 입증하였으며, 자동 회귀 디코딩(autoregressive decoding) 속도를 최대 64배 가속시킨다는 것을 보여주었습니다. 또한, 마스크GIT이 인페인팅(inpainting), 외삽(extrapolation), 이미지 조작(image manipulation) 등 다양한 이미지 편집 작업에 쉽게 확장될 수 있음을 설명하였습니다.