6 个月前

摘要

文本到图像的多模态任务（即根据给定的文本描述生成或检索图像）极具挑战性，因为原始文本描述所提供的信息极为有限，难以全面刻画视觉上逼真的图像。为此，我们提出了一种全新的视觉上下文文本表示方法——VICTR（Visual Contextual Text Representation），用于文本到图像的多模态任务。VICTR能够从文本输入中捕捉丰富的视觉语义信息。首先，我们以文本描述作为初始输入，通过依存句法分析提取其句法结构，并分析语义内容，包括对象数量等信息，进而构建场景图（scene graph）。随后，利用图卷积网络（Graph Convolutional Networks, GCN）对场景图中提取出的对象、属性及它们之间的关系，以及相应的几何关系信息进行联合建模，生成融合了文本与视觉语义信息的文本表示。该表示进一步与词级和句级嵌入（word-level and sentence-level embedding）进行融合，从而生成具有视觉上下文感知能力的词级与句级表示。在评估阶段，我们将VICTR集成到当前最先进的文本到图像生成模型中。实验结果表明，VICTR可轻松嵌入现有模型架构，且在定量指标与定性生成效果上均实现了显著提升。

源 PDF