
摘要
本文研究了图像与文本的组合学习在图像检索任务中的应用。查询以一张图像和一段描述期望图像修改内容的文本形式给出,目标是通过融合文本与图像模态中的信息,检索出满足指定修改要求且与查询图像相似的目标图像。为解决该问题,我们提出一种专为图像-文本组合任务设计的新颖架构,实验表明该结构能够有效编码在文本条件约束下源图像与目标图像之间的差异。此外,我们引入了一种基于图卷积网络(Graph Convolutional Network)的新型联合训练方法,该方法可无缝集成至现有任意组合方法中,具备即插即用的通用性。实验结果表明,所提出的方法在多个基准测试上均能持续提升性能,并达到当前最优水平。为避免因琐碎的训练超参数设置导致的实验结果偏差,我们重新实现了所有基线方法,并在统一的训练环境中训练模型。我们期望该方法能够抑制无关组件带来的不利影响,从而更准确地评估图像-文本组合模块的实际能力。值得注意的是,我们的方法在不施加特定训练环境限制的前提下,仍取得了当前最优的性能表现,这进一步证明了该方法在超参数调优带来的收益之外,仍具有显著优势。相关代码(包含所有基线方法)已公开发布于:https://github.com/nashory/rtic-gcn-pytorch。