
摘要
现实世界中的数据通常呈现长尾分布,即各类别的出现频率存在显著差异。例如,数据集中可能包含大量样本稀缺的类别,而仅有少数类别拥有充足的数据。然而,理想的模型应能在各类别上表现出相对均衡的性能。为此,引入类别平衡损失函数,以及先进的数据重采样与数据增强方法,已成为缓解数据不平衡问题的主流实践。然而,对于样本稀缺类别的信息缺失问题,仍需依赖额外知识来恢复其缺失的表征信息。在本工作中,我们提出一种新颖的方法,通过在特征空间中利用样本充足的类别所学习到的特征,对样本稀缺类别进行增强,以应对长尾分布问题。具体而言,我们采用类别激活图(Class Activation Maps)将每个类别的特征分解为通用类特征分量与特定类特征分量。在训练过程中,我们实时生成样本稀缺类别的新样本:将这些类别的特定特征与易混淆类别的通用特征进行融合。在iNaturalist、ImageNet-LT、Places-LT以及CIFAR的长尾版本等多个数据集上的实验结果表明,该方法取得了当前最优的性能表现。