고해상도 GANs를 위한 개선된 Transformer

주목 기반 모델, 예를 들어 Transformer는 장거리 의존성을 효과적으로 모델링할 수 있지만, 자기 주목(self-attention) 연산의 이차 복잡도로 인해 생성적 적대 신경망(GAN) 기반의 고해상도 이미지 생성에 적용하기 어렵다는 문제가 있다. 본 논문에서는 이러한 과제를 해결하기 위해 Transformer에 두 가지 핵심 요소를 도입한다. 첫째, 생성 과정의 저해상도 단계에서는 기존의 전역 자기 주목을 제안하는 다축 블록 자기 주목(multi-axis blocked self-attention)으로 대체하여 지역적 및 전역적 주목의 효율적인 혼합을 가능하게 한다. 둘째, 고해상도 단계에서는 자기 주목을 제거하고 다층 퍼셉트론(multi-layer perceptrons)만을 유지하며 암묵적 신경 함수(implicit neural function)와 유사한 구조를 채택한다. 성능을 further 향상시키기 위해 교차 주목(cross-attention) 기반의 추가적인 자기 조절(self-modulation) 구성 요소를 도입한다. 이러한 방식으로 도출된 모델인 HiT는 이미지 크기에 대해 거의 선형의 계산 복잡도를 가지며, 고해상도 이미지 생성에 직접적으로 확장 가능하다. 실험 결과, 제안된 HiT는 무조건적 ImageNet $128 \times 128$ 및 FFHQ $256 \times 256$에 대해 각각 FID 점수 30.83과 2.95를 달성하며 합리적인 처리 속도를 보였다. 우리는 제안된 HiT가 완전히 합성곱(convolution)을 배제한 GAN의 생성자에 있어 중요한 전환점이 될 것이라 믿는다. 본 연구의 코드는 공개적으로 https://github.com/google-research/hit-gan 에서 제공된다.