
摘要
长尾识别问题正受到广泛关注,这一近年来备受瞩目的核心挑战,其核心特征在于训练集的分布极度失衡,而验证集与测试集则保持相对均衡。由此带来的训练集与测试集之间的分布偏移,不可避免地对模型的泛化能力提出了严峻考验。针对该问题,现有方法主要分为两类:其一为训练感知方法,旨在通过充分挖掘模型在训练阶段的潜力,提升其泛化能力;其二为后处理校正方法,常与训练感知方法结合使用,通过在推理后阶段对预测结果进行精细化修正,具有实现简单、效果显著的优势。本文提出了一种全新的后处理校正方向,突破了传统统计方法的局限。从数学建模角度,我们引入最优传输(Optimal Transport, OT)理论来建模该问题。然而,在实际应用中,如何准确构建代价矩阵(cost matrix)仍具挑战性,通常依赖于对具体任务的专家知识。为克服这一限制,我们提出采用线性映射机制,实现代价矩阵的自适应学习,无需人工设定参数配置。在实际实验中,我们的方法展现出高效性与卓越的性能表现,显著优于此前所有方法,成为当前该领域性能最优的解决方案。