17일 전

텍스트-to-이미지 합성에서 GAN의 스케일링 증가

Minguk Kang, Jun-Yan Zhu, Richard Zhang, Jaesik Park, Eli Shechtman, Sylvain Paris, Taesung Park
텍스트-to-이미지 합성에서 GAN의 스케일링 증가
초록

최근 텍스트-to-이미지 합성 기술의 성공은 전 세계를 강타하며 일반 대중의 상상을 자극하고 있다. 기술적 관점에서 보면, 생성형 이미지 모델 설계를 위한 선호 아키텍처에 극적인 변화가 있었다. 과거에는 StyleGAN과 같은 기법을 포함한 GAN(Generative Adversarial Network)이 사실상의 표준이었으나, DALL-E 2의 등장으로 인해 자동 회귀(auto-regressive) 및 확산(diffusion) 모델이 하루아침에 대규모 생성 모델의 새로운 표준이 되었다. 이러한 급속한 전환은 근본적인 질문을 제기한다. LAION과 같은 대규모 데이터셋의 이점을 누리기 위해 GAN을 확장할 수 있을까? 우리는 단순히 StyleGAN 아키텍처의 용량만 증가시키는 것은 빠르게 불안정해짐을 발견했다. 이에 우리는 기존 한계를 훨씬 초월하는 새로운 GAN 아키텍처인 GigaGAN을 제안한다. GigaGAN은 텍스트-to-이미지 합성에 있어 GAN이 실현 가능한 선택지임을 입증한다. GigaGAN은 세 가지 주요 장점을 제공한다. 첫째, 추론 속도가 수십 배 이상 빠르며, 512픽셀 이미지를 생성하는 데 단 0.13초가 소요된다. 둘째, 고해상도 이미지 생성이 가능하여, 16메가픽셀 이미지를 3.66초 내에 생성할 수 있다. 셋째, 잠재 공간(latent space) 편집 기능을 지원하며, 잠재 벡터 보간(latent interpolation), 스타일 믹싱(style mixing), 벡터 산술 연산(vector arithmetic operations) 등 다양한 응용이 가능하다.