2 个月前
文本与图像融合以实现图像检索——一项实证探索
Nam Vo; Lu Jiang; Chen Sun; Kevin Murphy; Li-Jia Li; Li Fei-Fei; James Hays

摘要
在本文中,我们研究了图像检索任务,其中查询输入以图像加描述所需修改的文字形式给出。例如,我们可以提供一张埃菲尔铁塔的图片,并要求系统找到视觉上相似但经过细微修改的图片,如改为夜间拍摄而不是白天拍摄。为了解决这一任务,我们学习了一种目标图像与源图像加源文字之间的相似度度量方法,以及一种嵌入和组合函数,使得目标图像特征接近源图像加文字组合的特征。我们提出了一种新的方法来结合图像和文字,该方法专为检索任务设计。实验结果表明,我们的方法在三个不同的数据集上优于现有方法,这三个数据集分别是Fashion-200k、MIT-States和我们基于CLEVR创建的一个新的合成数据集。此外,我们还展示了该方法可以用于分类输入查询,而不仅仅是图像检索。