2 个月前
正交时间插值在零样本视频识别中的应用
Yan Zhu; Junbao Zhuo; Bin Ma; Jiajia Geng; Xiaoming Wei; Xiaolin Wei; Shuhui Wang

摘要
零样本视频识别(ZSVR)是一项旨在识别模型训练过程中未见过的视频类别的任务。近期,大规模图像-文本对预训练的视觉-语言模型(VLMs)在ZSVR任务中展现了出色的迁移能力。为了使VLMs适用于视频领域,现有方法通常在图像级编码器之后添加一个额外的时间学习模块,以学习视频帧之间的时间关系。然而,对于未见过类别的视频,我们观察到一种异常现象:使用时空特征的模型性能远不如移除时间学习模块、仅使用空间特征的模型。我们推测,不恰当的时间建模会破坏视频的空间特征。为了验证这一假设,我们提出了特征分解方法来保留视频的正交时间特征,并通过插值构建改进后的时空特征。实验结果表明,使用适当改进后的时空特征的模型性能优于仅使用空间特征的模型,这验证了正交时间特征在ZSVR任务中的有效性。因此,设计了一个正交时间插值模块,在训练过程中学习更好的改进时空视频特征。此外,引入了一种匹配损失函数以提高正交时间特征的质量。基于VLMs并结合正交时间插值和匹配损失函数,我们提出了一种名为OTI的ZSVR模型。在流行的视频数据集(如Kinetics-600、UCF101和HMDB51)上的ZSVR准确率显示,OTI显著优于之前的最先进方法。