17 天前

将语言引导整合到基于视觉的深度度量学习中

Karsten Roth, Oriol Vinyals, Zeynep Akata
将语言引导整合到基于视觉的深度度量学习中
摘要

深度度量学习(Deep Metric Learning, DML)旨在学习一种度量空间,将语义相似性编码为嵌入空间中的距离。这类空间应具备良好的可迁移性,能够适用于训练过程中未见过的类别。现有DML方法通常要求网络解决基于二元类别分配的对比排序任务,然而此类方法忽略了实际类别之间更高级别的语义关系,导致所学习的嵌入空间无法完整表达语义上下文,进而错误建模类别间的语义关联,影响度量空间的泛化能力。为解决上述问题,本文提出一种面向视觉相似性学习的语言引导目标。通过利用专家定义的类别名称与伪类别名称的语言嵌入,我们对视觉表示空间进行语义上下文建模与重新对齐,使其与有意义的语言语义保持一致,从而提升嵌入空间的语义一致性。大量实验与消融研究充分验证了所提方法的有效性,结果表明,语言引导机制在不依赖具体模型架构的前提下,显著提升了DML性能,在所有基准测试上均取得了具有竞争力乃至领先的实验结果。相关代码已开源,地址为:https://github.com/ExplainableML/LanguageGuidance_for_DML。

将语言引导整合到基于视觉的深度度量学习中 | 最新论文 | HyperAI超神经