6 个月前

摘要

在视频动作识别领域，时空建模网络及其复杂度是长期以来最受关注的两大研究方向。现有的最先进方法虽然在保持较低复杂度的同时实现了优异的识别准确率，但高效且性能优越的时空建模方案仍存在不足。本文旨在同时实现模型的高效性与有效性。首先，除了传统上将 H×W×T 的视频帧视为时空信号（从高度-宽度空间平面进行观察）之外，我们提出进一步从高度-时间与宽度-时间两个平面建模视频，以更全面地捕捉视频的动态特性。其次，我们的模型基于2D卷积神经网络（CNN）骨干网络构建，并在设计阶段充分考虑了模型复杂度的控制。具体而言，我们提出一种新颖的多视角融合（Multi-View Fusion, MVF）模块，利用可分离卷积实现高效建模。该模块为即插即用结构，可无缝嵌入现有的2D CNN网络中，构建出一种简洁而高效的新型模型——MVFNet。此外，MVFNet可被视为一种通用的视频建模框架，在不同配置下可退化为已有方法，如C2D、SlowOnly和TSM等。我们在多个主流基准数据集（包括Something-Something V1 & V2、Kinetics、UCF-101和HMDB-51）上进行了大量实验，结果表明，MVFNet在仅具备2D CNN复杂度的前提下，即可达到当前最优的性能表现。

源 PDF