
摘要
当训练数据集存在严重类别不平衡时,深度神经网络的性能往往表现不佳。近期,两类阶段(two-stage)方法通过解耦表示学习与分类器学习,有效提升了模型性能。然而,此类方法仍面临校准(calibration)不足的关键问题。为解决该问题,我们设计了两种新方法,以提升在类别不平衡场景下的校准能力与整体性能。基于类别预测概率分布与各类别样本数量高度相关的观察,我们提出标签感知平滑(label-aware smoothing)策略,以应对不同类别存在的不同程度过度自信问题,从而优化分类器的学习过程。针对解耦框架中因采样策略差异导致的两个阶段间数据分布偏移问题,我们进一步提出偏移批量归一化(shifted batch normalization),有效缓解了这一偏差。所提出的两种方法在多个主流长尾识别基准数据集上取得了新的性能记录,涵盖CIFAR-10-LT、CIFAR-100-LT、ImageNet-LT、Places-LT以及iNaturalist 2018。相关代码将公开于:https://github.com/Jia-Research-Lab/MiSLAS。