17 天前
少样本动作识别中的时空关系建模
Anirudh Thatipelli, Sanath Narayan, Salman Khan, Rao Muhammad Anwer, Fahad Shahbaz Khan, Bernard Ghanem

摘要
我们提出了一种新颖的少样本动作识别框架——STRM,该框架在增强类别特异性特征判别能力的同时,能够学习高阶时序表示。本方法的核心是一个新颖的时空增强模块,该模块通过专用的局部块级(patch-level)与全局帧级(frame-level)特征增强子模块,联合聚合空间与时间上下文信息。其中,局部块级增强模块捕捉动作的外观特征,而全局帧级增强模块则显式编码广泛的时序上下文,从而有效捕捉随时间演变的相关物体特征。由此生成的时空增强表示被进一步用于学习查询样本与支持样本动作子序列之间的关系匹配。此外,我们在块级增强特征上引入了一个查询-类别相似性分类器,通过在所提框架的不同阶段强化特征学习,进一步提升类别特异性特征的判别能力。我们在四个少样本动作识别基准数据集(Kinetics、SSv2、HMDB51 和 UCF101)上进行了实验验证。广泛的消融实验充分证明了所提各组件的有效性。更重要的是,我们的方法在全部四个基准上均达到了新的最先进(state-of-the-art)性能。在具有挑战性的 SSv2 数据集上,相较于现有最优方法,我们的方法在分类准确率上实现了 3.5% 的绝对提升。相关代码与模型已开源,地址为:https://github.com/Anirudh257/strm。