
摘要
对抗性扰动是一种类似噪声的模式,可以微妙地改变数据,从而使原本准确的分类器失效。在本文中,我们提出了一种新颖的对比学习框架,利用这些扰动生成负样本,进而产生改进的视频表示。为此,给定一个训练良好的用于逐帧视频识别的深度模型,我们首先生成适应该模型的对抗性噪声。正样本包和负样本包分别使用来自完整视频序列的原始数据特征及其扰动后的对应特征来生成。与经典的对比学习方法不同,我们开发了一个二分类问题,通过学习一组判别超平面(作为子空间)来区分这两个样本包。这个子空间随后被用作视频的描述符,称为“判别子空间池化”(Discriminative Subspace Pooling)。由于扰动后的特征可能属于容易与原始特征混淆的数据类别,因此判别子空间将表征特征空间中更具代表性的部分,从而可能提供鲁棒的视频表示。为了学习这样的描述符,我们在Stiefel流形上制定了一个子空间学习目标,并采用黎曼优化方法高效求解。我们在多个视频数据集上进行了实验,并展示了最先进的结果。