
초록
시퀀스 데이터에서 장거리 상호작용을 학습하도록 설계된 트랜스포머는 다양한 작업에서 최신 결과를 지속적으로 보여주고 있습니다. CNN과 달리, 트랜스포머는 국소적 상호작용을 우선시하는 귀납적 편향을 포함하지 않습니다. 이는 트랜스포머가 표현력이 뛰어나게 만드는 동시에 고해상도 이미지와 같은 긴 시퀀스에 대해 계산적으로 비현실적이게 만듭니다. 우리는 CNN의 귀납적 편향의 효과성과 트랜스포머의 표현력을 결합하여 고해상도 이미지를 모델링하고 생성할 수 있는 방법을 시연합니다. 이를 위해 (i) CNN을 사용하여 이미지 구성 요소의 문맥이 풍부한 어휘를 학습하고, 그 다음 (ii) 트랜스포머를 활용하여 고해상도 이미지 내에서 이러한 구성 요소들의 조합을 효율적으로 모델링하는 방법을 설명합니다. 우리의 접근 방식은 객체 클래스와 같은 비공간 정보와 세그멘테이션과 같은 공간 정보가 생성된 이미지를 제어할 수 있는 조건부 합성 작업에 쉽게 적용될 수 있습니다. 특히, 우리는 메가픽셀 이미지의 의미론적 가이드 합성을 위한 트랜스포머의 첫 번째 결과를 제시하며, 클래스 조건부 ImageNet에서 자기 회귀 모델 중 최고 성능을 달성했습니다. 코드와 사전 학습된 모델은 https://github.com/CompVis/taming-transformers 에서 확인할 수 있습니다.