
초록
우리는 GAN 아키텍처를 위한 스타일 기반 생성기이지만, 컨볼루션 없이 트랜스포머 기반의 생성기인 Styleformer를 제안한다. 본 논문에서는 컨볼루션 연산이 이미지의 전역적 특징을 포착하기 어려운 단점을 극복하면서, 트랜스포머가 어떻게 고품질 이미지를 생성할 수 있는지 설명한다. 또한 StyleGAN2의 디모듈레이션 방식을 개선하고, 기존의 트랜스포머 구조(예: 잔여 연결, 레이어 정규화 등)를 수정함으로써 컨볼루션 없는 구조를 가진 강력한 스타일 기반 생성기를 구현한다. 더불어 Linformer를 적용하여 Styleformer의 가벼움을 강화함으로써, 더 높은 해상도의 이미지를 생성할 수 있게 하였으며, 속도와 메모리 사용 측면에서 개선된 성능을 달성하였다. 우리는 CIFAR-10과 같은 저해상도 이미지 데이터셋과 LSUN-church와 같은 고해상도 이미지 데이터셋을 대상으로 실험을 수행하였다. CIFAR-10(기준 데이터셋)에서 Styleformer는 FID 2.82, IS 9.94를 기록하며, 현재 최고 수준의 성능을 달성하였고, 파라미터 수가 적은 조건에서도 StyleGAN2-ADA를 포함한 모든 GAN 기반 생성 모델보다 우수한 성능을 보였다. 또한 STL-10과 CelebA에서 각각 FID 15.17, IS 11.01, FID 3.66으로 새로운 최고 성능을 달성하였다. 코드는 https://github.com/Jeeseung-Park/Styleformer 에 공개한다.