17일 전

오픈월드 텍스트 유도형 얼굴 이미지 생성 및 조작 기술에 대한 연구

Weihao Xia, Yujiu Yang, Jing-Hao Xue, Baoyuan Wu
오픈월드 텍스트 유도형 얼굴 이미지 생성 및 조작 기술에 대한 연구
초록

기존의 텍스트 유도 이미지 합성 기법은 최대 \mbox{$\text{256}^2$} 해상도에서 제한된 품질의 결과를 생성할 뿐만 아니라, 텍스트 지시사항도 작은 어휘집(corpus)에 국한되어 있다. 본 연구에서는 다중모달 입력을 기반으로 하여 다양한 고해상도 이미지를 생성하고 조작할 수 있는 통합적인 프레임워크를 제안한다. 이 프레임워크는 기존에 없던 1024 해상도에서 뛰어난 품질의 이미지를 생성할 수 있다. 특히 중요한 점은, 본 방법이 재학습, 미세조정 또는 후처리 없이 오픈월드(open-world) 환경을 지원한다는 점이다. 이는 이미지와 텍스트를 포함한 다양한 입력 형태에 대해 유연하게 대응할 수 있음을 의미한다. 구체적으로, 사전 학습된 GAN 모델의 우수한 특성을 활용한 새로운 텍스트 유도 이미지 생성 및 조작 패러다임을 제안한다. 본 제안된 패러다임은 두 가지 혁신적인 전략을 포함한다. 첫 번째 전략은 사전 학습된 GAN 모델의 계층적 의미 구조와 일치하는 잠재 코드(latent codes)를 얻기 위해 텍스트 인코더를 학습하는 것이다. 두 번째 전략은 사전 학습된 언어 모델의 안내를 받아 사전 학습된 GAN 모델의 잠재 공간 내에서 잠재 코드를 직접 최적화하는 것이다. 이러한 잠재 코드는 사전 분포로부터 무작위로 샘플링하거나 주어진 이미지로부터 역전환(invert)할 수 있으며, 이는 스케치나 의미 레이블과 같은 다양한 다중모달 입력에 대해 텍스트 지시에 따라 이미지 생성 및 조작을 내재적으로 지원한다. 다중모달 텍스트 유도 합성의 촉진을 위해, 실제 얼굴 이미지와 해당하는 의미 분할 맵, 스케치, 텍스트 설명을 포함하는 대규모 데이터셋인 Multi-Modal CelebA-HQ를 제안한다. 제안된 데이터셋을 기반으로 수행된 광범위한 실험을 통해 본 방법의 우수한 성능을 입증하였다. 코드와 데이터는 https://github.com/weihaox/TediGAN에서 공개된다.