17 天前

动态度量学习:迈向可扩展度量空间以适应多种语义尺度

Yifan Sun, Yuke Zhu, Yuhan Zhang, Pengkun Zheng, Xi Qiu, Chi Zhang, Yichen Wei
动态度量学习:迈向可扩展度量空间以适应多种语义尺度
摘要

本文首次将现实世界度量工具中的一个基础特性——动态范围(dynamic range)引入深度视觉识别领域。在度量学中,动态范围是度量工具的基本质量指标,用以表征其对不同尺度的适应能力,动态范围越大,灵活性越高。在视觉识别任务中,多尺度问题同样存在:不同的视觉概念可能对应不同的语义尺度。例如,“动物”和“植物”具有较大的语义尺度,而“驼鹿”(Elk)的语义尺度则要小得多。在较小的语义尺度下,两只不同的驼鹿可能看起来差异显著;然而在较大的语义尺度下(如“动物”与“植物”之间),这两只驼鹿应被视为具有相似性。我们认为,这种跨尺度的灵活性对于深度度量学习同样至关重要,因为不同的视觉概念确实对应着不同的语义尺度。基于上述思想,我们将动态范围引入深度度量学习,提出了一项全新的计算机视觉任务——动态度量学习(Dynamic Metric Learning)。该任务旨在学习一个可扩展的度量空间,以适应跨越多个语义尺度的视觉概念。为此,我们基于三类图像数据——车辆、动物以及在线商品,构建了三个面向动态度量学习的数据集。我们采用主流的深度度量学习方法对这些数据集进行了基准测试,结果表明,动态度量学习任务极具挑战性。其主要难点在于不同尺度之间的内在冲突:在小尺度下具备强区分能力的模型,往往在大尺度下性能下降,反之亦然。作为次要贡献,我们提出了一种跨尺度学习(Cross-Scale Learning, CSL)方法,以缓解这一尺度冲突问题。实验结果表明,CSL在所有三个数据集上均能稳定提升基线模型的性能。相关数据集与代码将公开发布于:https://github.com/SupetZYK/DynamicMetricLearning。