17 天前

用于高效视频识别的时间显著性查询网络

Boyang Xia, Zhihao Wang, Wenhao Wu, Haoran Wang, Jungong Han
用于高效视频识别的时间显著性查询网络
摘要

随着互联网和移动设备上多媒体数据的爆炸式增长,高效视频识别已成为当前研究的热点课题。现有大多数方法在选择关键帧时缺乏对类别特异性显著性得分的感知,从而忽略了帧的显著性与其所属类别之间的隐含关联。为缓解这一问题,本文提出一种新颖的时序显著性查询(Temporal Saliency Query, TSQ)机制,通过引入类别特异性信息,为显著性度量提供细粒度的指导线索。具体而言,我们将类别特异性显著性度量过程建模为一种“查询-响应”任务:针对每一类别,将其共性模式作为查询(query),而最显著的帧则作为对该查询的响应(response)。随后,通过计算查询与响应之间的相似度,将其作为对应帧的显著性得分。为实现该机制,我们进一步提出时序显著性查询网络(TSQNet),该网络包含两种基于不同模态的TSQ机制实例:一种基于视觉外观相似性,另一种基于文本中的事件-对象关系。随后,通过引入跨模态交互机制,促进两种模态之间的信息互补与融合。最终,利用两种模态分别生成的最置信类别的类别特异性显著性得分,联合完成关键帧的选择。大量实验结果表明,所提方法在ActivityNet、FCVID和Mini-Kinetics等多个主流数据集上均取得了当前最优(state-of-the-art)的性能表现。项目主页详见:https://lawrencexia2008.github.io/projects/tsqnet。