
摘要
少样本视频分类旨在仅通过少量标注样本学习新的视频类别,从而缓解现实应用中昂贵的标注负担。然而,在此类设置下,学习具有类别不变性的时空表征尤为具有挑战性。为此,本文提出一种新颖的基于匹配的少样本视频学习策略。我们的核心思想是为视频对引入隐式时间对齐机制,能够以准确且鲁棒的方式估计视频间的相似性。此外,我们设计了一种高效的上下文编码模块,用于融合空间信息与特征通道上下文,从而更优地建模类别内部的差异性。为训练模型,我们构建了一种多任务损失函数,用于学习视频匹配任务,使视频特征具备更强的泛化能力。在两个具有挑战性的基准数据集上的大量实验结果表明,本方法在SomethingSomething-V2上显著优于现有先进方法,在Kinetics数据集上也取得了具有竞争力的性能。