2달 전
StackGAN++: 스택된 생성적 적대 네트워크를 이용한 실감 나는 이미지 합성
Han Zhang; Tao Xu; Hongsheng Li; Shaoting Zhang; Xiaogang Wang; Xiaolei Huang; Dimitris Metaxas

초록
생성적 적대 네트워크(GANs)는 다양한 작업에서 뛰어난 성공을 거두었음에도 불구하고, 여전히 고품질 이미지를 생성하는 데 어려움을 겪고 있습니다. 본 논문에서는 고해상도의 사진 같은 이미지를 생성하기 위한 스택된 생성적 적대 네트워크(StackGAN)를 제안합니다. 첫째, 텍스트-이미지 합성을 위한 두 단계의 생성적 적대 네트워크 구조인 StackGAN-v1을 제안합니다. Stage-I GAN은 주어진 텍스트 설명에 기반하여 객체의 기본적인 형태와 색상을 스케치하여 저해상도 이미지를 생성합니다. Stage-II GAN은 Stage-I 결과와 텍스트 설명을 입력으로 받아, 사진 같은 세부 정보를 포함한 고해상도 이미지를 생성합니다. 둘째, 조건부 및 비조건부 생성 작업 모두에 사용할 수 있는 고급 다단계 생성적 적대 네트워크 구조인 StackGAN-v2를 제안합니다. 우리의 StackGAN-v2는 나무 구조와 유사하게 여러 개의 생성기와 판별기를 포함하며, 동일한 장면에 해당하는 여러 크기의 이미지는 나무의 다른 가지에서 생성됩니다. StackGAN-v2는 여러 분포를 공동으로 근사함으로써 StackGAN-v1보다 안정적인 학습 행동을 보입니다. 광범위한 실험을 통해 제안된 스택된 생성적 적대 네트워크가 사진 같은 이미지를 생성하는 데 있어 다른 최신 방법들보다 크게 우수함을 입증하였습니다.