摘要
在实际应用中,具有长尾分布的不平衡数据集广泛存在,这对深度神经网络在处理头部类(多数类、高频类)与尾部类(少数类、稀有类)之间偏差预测方面提出了巨大挑战。深度网络学习到的尾部类特征空间通常表征不足,导致各类别间性能差异显著。现有方法通过增强尾部类特征以弥补其在特征空间中的不足,但这些方法在测试阶段往往难以泛化。为缓解该问题,本文提出一种新颖的样本自适应特征增强方法(Sample-Adaptive Feature Augmentation, SAFA),旨在通过增强尾部类特征来提升分类器性能。SAFA旨在从头部类中提取多样且可迁移的语义方向,并自适应地将尾部类特征沿所提取的语义方向进行平移以实现特征增强。该方法采用循环训练机制,确保增强后的特征具有样本特异性。通过对比损失(contrastive loss)约束提取的语义方向具备类别无关性,同时引入模式搜索损失(mode-seeking loss)以生成多样化的尾部类特征,从而扩大尾部类的特征空间。所提出的SAFA可作为即插即用模块,在训练阶段灵活集成于多种方法中,且在测试阶段无需额外计算开销。实验结果表明,借助SAFA,我们在CIFAR-LT-10、CIFAR-LT-100、Places-LT、ImageNet-LT以及iNaturalist2018等多个长尾数据集上均取得了优异的性能表现。