
摘要
近年来,针对长尾数据建模的研究兴趣日益增长。与人工构建的数据集不同,长尾数据在现实世界中天然存在,因此更具现实意义。为应对类别不平衡问题,本文提出一种膨胀式情景记忆(Inflated Episodic Memory, IEM),用于长尾视觉识别任务。首先,IEM通过为每个类别引入类别代表性特征,增强卷积神经网络对尾部类别(tail classes)的快速学习能力。在传统的少样本学习中,通常仅使用单一原型(prototype)来表征一个类别。然而,长尾数据具有更高的类内变异性,仅学习单一原型难以充分捕捉类别内部的多样性。为此,本文提出IEM,为每个类别独立存储最具判别性的特征,从而更准确地建模复杂类内结构。此外,记忆库的更新过程相互独立,进一步降低了学习到偏差分类器的风险。其次,本文提出一种新颖的区域自注意力机制(region self-attention),用于多尺度空间特征图的编码。该机制有助于融合更具判别性的特征,从而提升对尾部类别的泛化能力。具体而言,我们对多个尺度下的局部特征图进行编码,并同步聚合空间上下文信息,以增强特征表达的丰富性与鲁棒性。结合IEM与区域自注意力机制,本文在四个标准的长尾图像识别基准数据集上取得了当前最优的性能表现。此外,我们在一个长尾视频识别基准——YouTube-8M上验证了IEM的有效性,进一步证明了该方法在跨模态、大规模真实场景中的适用性与优越性。