
摘要
本文研究了基于多模态(图像-文本)查询从数据库中检索图像的问题。具体而言,查询文本会提示对查询图像进行某些修改,任务是在数据库中检索出具有所需修改的图像。例如,一位电子商务平台的用户想要购买一件与她朋友的衣服相似但颜色为白色且带有丝带腰带的连衣裙。在这种情况下,我们希望算法能够检索出一些经过所需修改的连衣裙。为此,我们提出了一种基于自动编码器的模型——ComposeAE,用于学习图像和文本查询的组合以实现图像检索。我们采用了深度度量学习方法,学习一种度量,使得源图像和文本查询的组合更加接近目标图像。此外,我们在优化问题中引入了旋转对称约束。我们的方法在三个基准数据集上(即MIT-States、Fashion200k和Fashion IQ)的表现优于现有的最先进方法TIRG \cite{TIRG}。为了确保公平比较,我们通过增强TIRG方法引入了强大的基线模型。为了保证结果的可复现性,我们在此发布了代码:\url{https://github.com/ecom-research/ComposeAE}。