2달 전
StackGAN: 스택된 생성적 적대 네트워크를 이용한 텍스트에서 사진 같은 이미지 합성
Han Zhang; Tao Xu; Hongsheng Li; Shaoting Zhang; Xiaogang Wang; Xiaolei Huang; Dimitris Metaxas

초록
텍스트 설명으로부터 고품질 이미지를 생성하는 것은 컴퓨터 비전 분야에서 어려운 문제이며, 많은 실용적인 응용 분야가 있습니다. 기존의 텍스트-이미지 접근 방식으로 생성된 샘플들은 주어진 설명의 대략적인 의미를 반영할 수 있지만, 필요한 세부 사항과 생동감 있는 객체 부분을 포함하지 못합니다. 본 논문에서는 텍스트 설명에 조건부로 256x256 해상도의 사진 같은 이미지를 생성하기 위한 스택형 생성적 적대 네트워크(StackGAN)를 제안합니다. 우리는 스케치 개선 과정을 통해 이 어려운 문제를 더 관리하기 쉬운 하위 문제들로 분해합니다. 단계 I GAN은 주어진 텍스트 설명을 바탕으로 객체의 기본적인 형태와 색상을 스케치하여 단계 I 저해상도 이미지를 생성합니다. 단계 II GAN은 단계 I 결과와 텍스트 설명을 입력으로 받아, 사진 같은 세부 사항을 가진 고해상도 이미지를 생성합니다. 이 과정은 단계 I 결과의 결함을 수정하고 강력한 세부 사항을 추가할 수 있습니다. 합성된 이미지의 다양성을 개선하고 조건부 GAN의 학습 안정성을 높이기 위해, 잠재 조건 매니폴드에서 부드러움을 유도하는 새로운 조건 증강(Conditioning Augmentation) 기술을 소개합니다. 벤치마크 데이터셋에서 수행된 광범위한 실험과 최신 연구들과의 비교를 통해 제안된 방법이 텍스트 설명에 조건부로 사진 같은 이미지를 생성하는 데 있어 상당한 개선 효과를 보임을 입증하였습니다.