9 天前

广义长尾分类中的不变特征学习

Kaihua Tang, Mingyuan Tao, Jiaxin Qi, Zhenguang Liu, Hanwang Zhang
广义长尾分类中的不变特征学习
摘要

现有的长尾分类(Long-Tailed, LT)方法仅关注类别层面的不平衡问题,即头部类别样本数量多于尾部类别,而忽略了属性层面的不平衡。事实上,即使在类别分布均衡的情况下,由于属性的差异性,同一类别内部的样本分布仍可能呈现长尾状。值得注意的是,这种属性层面的不平衡在本质上比类别层面更为普遍且更具挑战性,因为大多数数据集中的属性不仅具有隐含性,还呈现出组合上的复杂性,因此在实际中难以实现完全平衡。为此,我们提出一个全新的研究问题:广义长尾分类(Generalized Long-Tailed Classification, GLT),旨在同时考虑上述两类不平衡问题。所谓“广义”,意味着一个GLT方法应当能够自然地解决传统LT问题,但反之则不成立。出乎意料的是,我们在所提出的两个新基准——ImageNet-GLT与MSCOCO-GLT上发现,大多数现有的类别层面LT方法均出现性能退化。我们认为,其根本原因在于这些方法过度强调对类别分布的调整,而忽视了对属性不变特征的学习。为此,我们提出一种新的不变特征学习方法(Invariant Feature Learning, IFL),作为GLT任务的首个强基准方法。IFL首先从不完美预测中识别出具有显著类内分布差异的环境,然后在这些环境中学习具有不变性的特征表示。令人鼓舞的是,作为特征提取的改进骨干网络,IFL能够显著提升各类长尾分类方法的性能,包括单阶段/两阶段重加权、数据增强以及集成学习等主流策略。相关代码与基准数据集已开源,详见:https://github.com/KaihuaTang/Generalized-Long-Tailed-Benchmarks.pytorch