17 天前

Video-FocalNets:用于视频动作识别的时空焦点调制

Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan
Video-FocalNets:用于视频动作识别的时空焦点调制
摘要

近期的视频识别模型普遍采用Transformer架构来建模长距离时空上下文。然而,视频Transformer的设计依赖于自注意力机制,虽能捕捉全局上下文信息,但计算开销较高。相比之下,基于卷积的视频模型虽然计算效率更高,却难以有效建模长距离依赖关系。为兼顾两者优势,本文提出Video-FocalNet——一种高效且有效的视频识别架构,能够同时建模局部与全局上下文信息。Video-FocalNet基于一种时空聚焦调制(spatio-temporal focal modulation)架构,通过反转自注意力机制中的交互与聚合步骤,显著提升了计算效率。此外,该架构中的聚合与交互步骤均采用高效的卷积操作与逐元素乘法运算,相较于传统自注意力机制在视频表示上的计算成本更低。我们对基于聚焦调制的时空上下文建模设计空间进行了系统性探索,结果表明,所提出的并行时空编码设计为最优方案。在五个大规模视频数据集(Kinetics-400、Kinetics-600、SS-v2、Diving-48 和 ActivityNet-1.3)上,Video-FocalNet在保持更低计算成本的前提下,性能显著优于当前最先进的基于Transformer的视频识别模型。相关代码与模型已开源,地址为:https://github.com/TalalWasim/Video-FocalNets。