17일 전

TransGAN: 두 개의 순수한 Transformer만으로도 강력한 GAN을 만들 수 있으며, 이는 확장 가능한 구조이다.

Yifan Jiang, Shiyu Chang, Zhangyang Wang
TransGAN: 두 개의 순수한 Transformer만으로도 강력한 GAN을 만들 수 있으며, 이는 확장 가능한 구조이다.
초록

최근 트랜스포머에 대한 폭발적인 관심은 컴퓨터 비전 작업, 예를 들어 분류, 탐지, 세그멘테이션 등에 있어 강력한 '보편적' 모델로의 가능성을 시사하고 있다. 이와 같은 연구 대부분은 판별적 모델에 초점을 맞추고 있으나, 본 연구에서는 더 전형적으로 어려운 비전 작업, 예를 들어 생성적 적대 신경망(GAN)에 트랜스포머를 적용해보았다. 우리의 목표는 순수한 트랜스포머 기반 아키텍처만을 사용해 완전히 합성곱(convolution)이 없는 GAN을 구축하는 최초의 탐색적 연구를 수행하는 것이다. 본 연구에서 제안하는 기본적인 GAN 아키텍처인 TransGAN은 특징 해상도를 점진적으로 증가시키는 메모리 친화적인 트랜스포머 기반 생성기와, 동시에 의미적 맥락과 저수준 텍스처를 포착할 수 있도록 다중 해상도의 판별기로 구성되어 있다. 이를 기반으로, 메모리 병목 현상을 더욱 완화하기 위해 격자 자기주목(self-attention) 모듈을 도입하여 TransGAN의 해상도 확장을 가능하게 했다. 또한, TransGAN의 학습 불안정성 문제를 완화하기 위한 독창적인 학습 레시피를 개발하였으며, 이에는 데이터 증강, 수정된 정규화 기법, 상대적 위치 인코딩 등이 포함된다. 최적의 아키텍처는 기존 합성곱 기반의 최첨단 GAN들과 비교해 매우 경쟁력 있는 성능을 달성하였다. 구체적으로, STL-10 데이터셋에서 TransGAN은 기존의 StyleGAN-V2를 능가하는 새로운 최고 성능을 기록하며, Inception Score는 10.43, FID는 18.28을 달성하였다. 더 높은 해상도(예: 256×256)의 생성 작업, 예를 들어 CelebA-HQ 및 LSUN-Church에서의 실험에서도 TransGAN은 높은 사실성과 인상적인 텍스처 세부 정보를 갖춘 다양한 시각적 예시를 지속적으로 생성하였다. 또한, 트랜스포머 기반 생성 모델의 동작 방식이 합성곱 기반 모델과 어떻게 다른지를 이해하기 위해 학습 동역학을 시각화하여 깊이 있는 분석을 수행하였다. 코드는 https://github.com/VITA-Group/TransGAN 에서 공개되어 있다.

TransGAN: 두 개의 순수한 Transformer만으로도 강력한 GAN을 만들 수 있으며, 이는 확장 가능한 구조이다. | 최신 연구 논문 | HyperAI초신경