
초록
본 논문에서는 자연어 설명에 따라 이미지 생성의 특정 부분을 제어할 수 있는 새로운 제어 가능한 텍스트-이미지 생성 적대 신경망(ControlGAN)을 제안한다. 이 모델은 고품질 이미지를 효과적으로 합성하는 동시에, 자연어 기반의 지시에 따라 이미지의 특정 영역을 정밀하게 조작할 수 있다. 이를 달성하기 위해, 단어 수준에서 공간적 및 채널 방향의 주의(attention)를 기반으로 하는 새로운 생성자(generator)를 도입하여 다양한 시각적 특징을 분리할 수 있도록 하였으며, 관련성이 높은 단어에 대응하는 하위 영역의 생성과 조작에 집중할 수 있도록 한다. 또한, 단어 수준의 판별자(discriminator)를 제안하여 단어와 이미지 영역 간의 상관관계를 기반으로 세밀한 감독 피드백을 제공함으로써, 다른 콘텐츠의 생성에 영향을 주지 않고 특정 시각적 특징만을 조작할 수 있는 효과적인 생성자를 학습할 수 있도록 한다. 더불어, 이미지 생성 과정에서 발생하는 무작위성을 줄이고, 수정된 텍스트에서 요구되는 특정 특징을 조작하도록 유도하기 위해 인지적 손실(perceptual loss)을 도입하였다. 기준 데이터셋에서 실시한 광범위한 실험 결과, 제안하는 방법이 기존 최첨단 기법들을 초월하며, 자연어 설명을 이용하여 합성 이미지를 효과적으로 조작할 수 있음을 입증하였다. 코드는 https://github.com/mrlibw/ControlGAN 에서 공개되어 있다.