2달 전
TediGAN: 텍스트 안내를 받는 다양한 얼굴 이미지 생성 및 조작
Xia, Weihao ; Yang, Yujiu ; Xue, Jing-Hao ; Wu, Baoyuan

초록
본 연구에서는 텍스트 설명을 사용한 다중 모달 이미지 생성 및 조작을 위한 새로운 프레임워크인 TediGAN을 제안합니다. 제안된 방법은 세 가지 구성 요소로 이루어져 있습니다: StyleGAN 역변환 모듈, 시각-언어 유사성 학습, 그리고 인스턴스 수준 최적화입니다. 역변환 모듈은 실제 이미지를 잘 훈련된 StyleGAN의 잠재 공간으로 매핑합니다. 시각-언어 유사성 학습은 이미지와 텍스트를 공통 임베딩 공간으로 매핑하여 텍스트-이미지 일치성을 학습합니다. 인스턴스 수준 최적화는 조작 과정에서 동일성을 유지하기 위한 것입니다. 본 모델은 1024 픽셀의 놀라운 해상도로 다양하고 고품질의 이미지를 생성할 수 있습니다. 스타일 믹싱 기반의 제어 메커니즘을 통해 본 TediGAN은 스케치나 의미 라벨 등 인스턴스 가이드 유무에 관계없이 다중 모달 입력을 사용한 이미지 합성을 내재적으로 지원합니다. 텍스트 지도 다중 모달 합성을 용이하게 하기 위해, 실제 얼굴 이미지와 대응하는 의미 분할 맵, 스케치, 그리고 텍스트 설명으로 구성된 대규모 데이터셋인 Multi-Modal CelebA-HQ를 제안합니다. 소개된 데이터셋에 대한 광범위한 실험 결과가 제안된 방법의 우수한 성능을 입증하고 있습니다. 코드와 데이터는 https://github.com/weihaox/TediGAN에서 제공됩니다.