
摘要
视觉-语义嵌入(Visual-Semantic Embedding, VSE)是一种在图像-文本检索任务中广泛采用的方法,其核心思想是通过学习图像与语言模态之间的联合嵌入空间,以保持语义相似性。目前,基于难负样本挖掘(hard-negative mining)的三元组损失(triplet loss)已成为大多数VSE方法的默认优化目标。受图像领域深度度量学习(Deep Metric Learning, DML)近期进展的启发,新提出的损失函数已展现出优于传统三元组损失的性能。在此背景下,本文重新审视了图像-文本匹配任务中寻找更优目标函数的问题。尽管已有部分工作尝试基于梯度运动设计损失函数,但大多数DML损失仍是在嵌入空间中经验性地定义的。本文并未直接应用这些损失函数(因其可能导致模型参数更新次优),而是提出了一种全新的基于梯度的目标分析框架——GOAL(Gradient-based Objective AnaLysis),用于系统性地分析现有DML函数中梯度的组合方式与重加权策略。借助该分析框架,我们进一步在梯度空间中提出了一类新的目标函数,探索不同梯度组合的可能性。当所提出的梯度组合无法整合为一个有效的嵌入空间损失函数时,我们设计了直接在梯度空间中操作的实现机制,从而避免对嵌入空间损失函数的依赖。大量实验表明,所提出的新型目标函数在多种视觉特征与模型架构下均显著优于基线方法,且性能提升具有持续性。此外,我们还验证了GOAL框架的通用性,将其扩展至使用三元组族损失的其他模型,包括具有强跨模态交互的视觉-语言模型,在COCO与Flickr30K数据集上的图像-文本检索任务中均取得了当前最优(state-of-the-art)的性能表现。