18 天前

度量学习的统一互信息视角:交叉熵损失与成对损失

Malik Boudiaf, Jérôme Rony, Imtiaz Masud Ziko, Eric Granger, Marco Pedersoli, Pablo Piantanida, Ismail Ben Ayed
度量学习的统一互信息视角:交叉熵损失与成对损失
摘要

近年来,深度度量学习(Deep Metric Learning, DML)的研究大量聚焦于设计复杂的成对距离损失函数,这些损失通常需要借助繁琐的优化策略(如样本挖掘或成对加权)来缓解优化困难。相比之下,分类任务中常用的交叉熵损失在DML领域却长期被忽视。表面上看,交叉熵似乎与度量学习无关,因为它并未显式地涉及成对距离。然而,本文通过理论分析揭示了交叉熵与多种经典及新兴成对损失之间的深刻联系。我们的关联分析基于两个不同的视角:其一,基于显式的优化洞察;其二,基于标签与学习特征之间互信息的判别性与生成性视角。首先,我们明确证明:交叉熵是某一新型成对损失的上界,该损失具有与多种现有成对损失相似的结构——即在最小化类内距离的同时最大化类间距离。因此,最小化交叉熵可被视作对这一成对损失的近似边界优化(或称“主-极小”算法,Majorize-Minimize)。其次,我们进一步证明,更一般地,最小化交叉熵等价于最大化互信息,而这一目标与多种经典成对损失密切相关。此外,我们还展示了多种标准成对损失之间可通过边界关系被显式关联。上述发现表明,交叉熵在无需复杂样本挖掘启发式策略的前提下,可作为最大化互信息的一种有效代理目标,其作用与成对损失一致。我们在四个标准DML基准上的大量实验结果有力支持了上述理论结论。所提方法取得了当前最优的性能,显著超越了近期复杂且先进的DML方法。