9 天前

基于记忆的抖动：通过记忆中的多样性提升长尾数据上的视觉识别性能

Jialun Liu, Jingwei Zhang, Yi yang, Wenhui Li, Chi Zhang, Yifan Sun

摘要

本文研究长尾数据下的深度视觉识别问题。为保证方法的通用性，我们考虑两种典型应用场景，即深度分类与深度度量学习。在长尾数据分布下，多数类别（即尾部类别）样本数量较少，且类内多样性严重不足。为此，一种根本性的解决思路是通过引入更高多样性的数据来增强尾部类别的表示。为此，本文提出一种简单而可靠的方法——基于记忆的抖动（Memory-based Jitter, MBJ）。我们观察到，在训练过程中，深度模型在每次迭代后参数持续变化，从而产生一种称为“权重抖动”（weight jitters）的现象。由此，对于同一输入图像，模型在不同历史版本下会生成嵌入空间中两个不同的特征表示，形成所谓的“特征抖动”（feature jitters）。通过引入记忆库（memory bank），我们能够跨多个训练迭代累积这些模型或特征层面的抖动，从而获得所谓的“基于记忆的抖动”（Memory-based Jitter）。这些累积的抖动有效提升了尾部类别的类内多样性，进而显著改善了长尾视觉识别性能。经过轻微调整，MBJ方法可广泛适用于两类基础视觉识别任务：深度图像分类与深度度量学习（在长尾数据上）。在五个长尾分类基准数据集和两个深度度量学习基准上的大量实验表明，该方法取得了显著的性能提升。此外，其在两类任务上的性能均达到当前最先进水平，具有良好的竞争力。