17일 전

StyleGAN-T: GAN의 힘을 해방시키며 대규모 텍스트 기반 이미지 합성의 속도를 극대화한다

Axel Sauer, Tero Karras, Samuli Laine, Andreas Geiger, Timo Aila
StyleGAN-T: GAN의 힘을 해방시키며 대규모 텍스트 기반 이미지 합성의 속도를 극대화한다
초록

최근 대규모 사전 훈련된 언어 모델과 대규모 훈련 데이터, 그리고 확장 가능한 모델 패밀리인 확산( diffusion) 및 자기회귀(auto-regressive) 모델의 등장으로 인해 텍스트-to-이미지 합성 분야는 큰 진전을 이루었다. 그러나 최고 성능을 발휘하는 모델들은 단일 샘플을 생성하기 위해 반복적인 평가를 필요로 한다. 반면, 생성적 적대 신경망(GAN)은 단일 전방 전파(forward pass)만으로도 충분하다. 이로 인해 훨씬 빠르지만, 현재로서는 대규모 텍스트-to-이미지 합성 분야의 최첨단 기술에 크게 뒤처져 있다. 본 논문은 이러한 경쟁력을 회복하기 위해 필요한 핵심 단계를 규명하는 것을 목표로 한다. 제안하는 모델인 StyleGAN-T는 대규모 텍스트-to-이미지 합성에 필요한 특수한 요구사항—대용량, 다양한 데이터셋에서의 안정적인 훈련, 강력한 텍스트 정렬(text alignment), 텍스트 정렬과 제어 가능한 변동성 사이의 균형—을 충족하도록 설계되었다. StyleGAN-T는 기존 GAN 모델을 크게 능가하며, 이전까지 빠른 텍스트-to-이미지 합성 분야의 최첨단 기술이었던 압축된 확산 모델(distilled diffusion models)보다 샘플 품질과 속도 면에서 모두 우수한 성능을 보였다.