17 天前
LatteGAN:用于多轮文本条件图像操作的视觉引导语言注意力
Shoya Matsumori, Yuki Abe, Kosuke Shingyouchi, Komei Sugiura, Michita Imai

摘要
近年来,文本引导的图像编辑任务在视觉-语言领域受到广泛关注。尽管以往多数研究集中于单轮图像编辑,本文的目标是解决更具挑战性的多轮图像编辑(Multi-turn Image Manipulation, MTIM)任务。先前针对该任务的模型能够在给定一系列指令及先前生成图像的基础上,迭代地生成图像。然而,该方法存在生成不足以及指令中描述物体的生成质量较差的问题,从而导致整体性能下降。为克服上述缺陷,本文提出一种新型架构——视觉引导语言注意力生成对抗网络(LatteGAN)。该模型通过引入视觉引导语言注意力(Visually Guided Language Attention, Latte)模块,为生成器提取细粒度的文本表征;同时采用文本条件U-Net判别器架构,能够同时判别图像的全局与局部表征,以区分真实图像与伪造图像。在两个独立的MTIM数据集CoDraw和i-CLEVR上的大量实验表明,所提出的模型在性能上达到了当前最优水平。