3 个月前
VICTR:用于文本到图像多模态任务的视觉信息捕获文本表示
Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon

摘要
文本到图像的多模态任务(即根据给定的文本描述生成或检索图像)极具挑战性,因为原始文本描述所提供的信息极为有限,难以全面刻画视觉上逼真的图像。为此,我们提出了一种全新的视觉上下文文本表示方法——VICTR(Visual Contextual Text Representation),用于文本到图像的多模态任务。VICTR能够从文本输入中捕捉丰富的视觉语义信息。首先,我们以文本描述作为初始输入,通过依存句法分析提取其句法结构,并分析语义内容,包括对象数量等信息,进而构建场景图(scene graph)。随后,利用图卷积网络(Graph Convolutional Networks, GCN)对场景图中提取出的对象、属性及它们之间的关系,以及相应的几何关系信息进行联合建模,生成融合了文本与视觉语义信息的文本表示。该表示进一步与词级和句级嵌入(word-level and sentence-level embedding)进行融合,从而生成具有视觉上下文感知能力的词级与句级表示。在评估阶段,我们将VICTR集成到当前最先进的文本到图像生成模型中。实验结果表明,VICTR可轻松嵌入现有模型架构,且在定量指标与定性生成效果上均实现了显著提升。