7일 전

고해상도 GANs를 위한 개선된 Transformer

Long Zhao, Zizhao Zhang, Ting Chen, Dimitris N. Metaxas, Han Zhang
고해상도 GANs를 위한 개선된 Transformer
초록

주목 기반 모델, 예를 들어 Transformer는 장거리 의존성을 효과적으로 모델링할 수 있지만, 자기 주목(self-attention) 연산의 이차 복잡도로 인해 생성적 적대 신경망(GAN) 기반의 고해상도 이미지 생성에 적용하기 어렵다는 문제가 있다. 본 논문에서는 이러한 과제를 해결하기 위해 Transformer에 두 가지 핵심 요소를 도입한다. 첫째, 생성 과정의 저해상도 단계에서는 기존의 전역 자기 주목을 제안하는 다축 블록 자기 주목(multi-axis blocked self-attention)으로 대체하여 지역적 및 전역적 주목의 효율적인 혼합을 가능하게 한다. 둘째, 고해상도 단계에서는 자기 주목을 제거하고 다층 퍼셉트론(multi-layer perceptrons)만을 유지하며 암묵적 신경 함수(implicit neural function)와 유사한 구조를 채택한다. 성능을 further 향상시키기 위해 교차 주목(cross-attention) 기반의 추가적인 자기 조절(self-modulation) 구성 요소를 도입한다. 이러한 방식으로 도출된 모델인 HiT는 이미지 크기에 대해 거의 선형의 계산 복잡도를 가지며, 고해상도 이미지 생성에 직접적으로 확장 가능하다. 실험 결과, 제안된 HiT는 무조건적 ImageNet $128 \times 128$ 및 FFHQ $256 \times 256$에 대해 각각 FID 점수 30.83과 2.95를 달성하며 합리적인 처리 속도를 보였다. 우리는 제안된 HiT가 완전히 합성곱(convolution)을 배제한 GAN의 생성자에 있어 중요한 전환점이 될 것이라 믿는다. 본 연구의 코드는 공개적으로 https://github.com/google-research/hit-gan 에서 제공된다.

고해상도 GANs를 위한 개선된 Transformer | 최신 연구 논문 | HyperAI초신경