ImageBART: 순차적 이미지 합성 위한 다항 확산을 통한 양방향 컨텍스트

자기회귀 모델과 그들의 데이터 가능도에 대한 순차적 인수분해는 최근 이미지 표현 및 합성 분야에서 큰 잠재력을 보여주고 있다. 그러나 이러한 모델들은 이미지의 맥락을 단순히 위나 왼쪽에 이미 생성된 이미지 패치들에만 주목함으로써 선형적인 1차원 순서로만 처리한다. 이는 이미지에 대해 방향성이 단일한 순차적 주의 방식을 갖는데, 이는 이미지의 대부분의 부분을 거의 완성된 이후에야 고려하게 되므로 자연스럽지 않다. 또한 전체 이미지를 단일 스케일에서만 처리함으로써 전체 장면의 전반적인 맥락 정보, 즉 장면의 핵심적인 요소를 무시하게 된다. 이를 해결하기 위해, 자기회귀 공식과 다항 확산 과정을 결합함으로써 계층적인 거시-세부 맥락 구조를 도입한다. 다단계 확산 과정은 이미지를 점차적으로 정보를 제거하여 거칠게 만드는 반면, 우리는 이를 역으로 수행할 수 있도록 짧은 마르코프 체인을 학습한다. 각 단계에서, 생성되는 자기회귀형 ImageBART 모델은 이전 단계들로부터 거시적인 맥락을 점진적으로 세부적으로 통합한다. 실험 결과, 기존 자기회귀 모델에 비해 이미지 수정 능력이 크게 향상되었으며, 압축된 잠재 공간에서 효율적인 학습을 통해 높은 품질의 이미지 생성도 가능하다. 특히, 본 연구 방법은 사용자가 자유롭게 제공한 마스크를 고려하여 국소적인 이미지 편집을 수행할 수 있다. 따라서 순수 자기회귀 모델과 달리, 마스크에 특화된 학습 없이도 자유형 이미지 복원(inpainting)과 조건부 모델의 경우 텍스트 지도 하에 국소적인 이미지 수정을 수행할 수 있다.