
摘要
长尾数据分布广泛存在于多种多标签视觉识别任务中,直接使用此类数据进行训练通常会导致尾部类别性能较差。尽管重采样(re-balanced data sampling)策略能够提升尾部类别的识别性能,但由于标签共现(label co-occurrence)的存在,可能在训练过程中损害头部类别的表现。为此,本文提出一种新的协同训练方法,同时在均匀采样与重采样数据上进行训练,从而实现对头部与尾部类别的性能同步提升。具体而言,我们设计了一个双分支视觉识别网络:一个分支以均匀采样数据作为输入,另一个分支则以重采样数据作为输入。针对每个分支,我们采用基于二元交叉熵(binary cross-entropy)的分类损失函数,并引入可学习的logit补偿机制以增强分类效果。此外,我们进一步定义了一种跨分支损失(cross-branch loss),用于强制同一输入图像在两个分支中产生一致的输出特征。我们在VOC-LT和COCO-LT两个长尾多标签数据集上进行了大量实验,结果表明,所提出的方法在长尾多标签视觉识别任务上显著优于现有的最先进方法。