StyleSwin: 고해상도 이미지 생성을 위한 기반 Transformer GAN

시각 작업 전반에서 놀라운 성공을 거두고 있음에도 불구하고, 트랜스포머는 고해상도 이미지 생성 모델링에서 여전히 컨볼루션 네트워크(ConvNets) 수준의 성능을 보이지 못하고 있다. 본 논문에서는 순수한 트랜스포머를 활용하여 고해상도 이미지 합성용 생성적 적대 신경망(GAN)을 구축하는 방안을 탐구한다. 이를 위해 우리는 국소적 주의(attention)가 계산 효율성과 모델링 능력 사이의 균형을 이루는 데 핵심적이라고 판단한다. 따라서 제안하는 생성자(generator)는 스타일 기반 아키텍처(styled-based architecture)에 스위н 트랜스포머(Swin transformer)를 도입한다. 더 넓은 수용 영역(receptive field)을 확보하기 위해, 국소 창(window)과 이동된 창의 맥락을 동시에 활용하는 이중 주의(double attention)를 제안하며, 이는 이미지 생성 품질을 향상시킨다. 또한, 창 기반 트랜스포머에서 상실된 절대 위치 정보를 제공함으로써 생성 품질이 크게 향상됨을 보여준다. 제안하는 StyleSwin은 고해상도에 대해 확장 가능하며, 트랜스포머의 강력한 표현력 덕분에 거시적 기하학적 구조와 미세한 세부 구조 모두에서 우수한 성능을 발휘한다. 다만, 블록 단위로 국소 주의를 수행할 경우 공간 일관성이 깨질 수 있어 고해상도 합성 과정에서 블록 아티팩트(blocking artifacts)가 발생한다. 이를 해결하기 위해 다양한 대안을 경험적으로 탐구한 결과, 주파수 영역에서의 불일치를 검사하는 웨이블릿 판별자(wavelet discriminator)를 도입함으로써 아티팩트가 효과적으로 억제됨을 확인하였다. 광범위한 실험 결과는 기존의 트랜스포머 기반 GAN들보다 뛰어난 성능을 보이며, 특히 1024×1024와 같은 고해상도에서 두드러진 우수성을 입증한다. 복잡한 학습 전략 없이도 StyleSwin은 CelebA-HQ 1024에서 StyleGAN을 능가하며, FFHQ-1024에서는 동등한 성능을 달성함으로써 트랜스포머가 고해상도 이미지 생성에 활용될 수 있는 잠재력을 입증한다. 코드 및 모델은 https://github.com/microsoft/StyleSwin 에 공개될 예정이다.