2달 전

MirrorGAN: 텍스트-이미지 생성을 위한 재기술 학습

Tingting Qiao; Jing Zhang; Duanqing Xu; Dacheng Tao
MirrorGAN: 텍스트-이미지 생성을 위한 재기술 학습
초록

주어진 텍스트 설명으로부터 이미지를 생성하는 것은 두 가지 목표를 가지고 있습니다: 시각적 사실성과 의미 일관성입니다. 생성적 적대 네트워크를 사용하여 고품질이고 시각적으로 사실적인 이미지를 생성하는 데 큰 진전이 이루어졌지만, 텍스트 설명과 시각적 콘텐츠 간의 의미 일관성을 보장하는 것은 여전히 매우 어려운 문제입니다. 본 논문에서는 이 문제를 해결하기 위해 새로운 전역-국부 주의 및 의미 보존형 텍스트-이미지-텍스트 프레임워크인 미러GAN(MirrorGAN)을 제안합니다. 미러GAN은 재기술(redescription)을 통해 텍스트-이미지 생성을 학습하는 아이디어를 활용하며, 세 가지 모듈로 구성됩니다: 의미 텍스트 임베딩 모듈(STEM), 단계별 이미지 생성을 위한 전역-국부 협력 주의 모듈(GLAM), 그리고 생성된 이미지로부터 의미적으로 일치하는 텍스트 설명을 재생성하고 정렬하는 모듈(STREAM).STEM은 단어 수준과 문장 수준의 임베딩을 생성합니다. GLAM은 대략적인 스케일에서 세밀한 스케일까지 타겟 이미지를 단계적으로 생성하는 구조를 가지고 있으며, 국부 단어 주의와 전역 문장 주의를 모두 활용하여 생성된 이미지의 다양성과 의미 일관성을 점진적으로 개선합니다. STREAM은 생성된 이미지로부터 원래 제공된 텍스트 설명과 의미적으로 일치하는 텍스트 설명을 재생성하려고 합니다. 두 개의 공개 벤치마크 데이터셋에 대한 철저한 실험 결과는 미러GAN이 다른 대표적인 최신 방법들보다 우수함을 입증하였습니다.