2 个月前

外观与关系网络在视频分类中的应用

Limin Wang; Wei Li; Wen Li; Luc Van Gool
外观与关系网络在视频分类中的应用
摘要

视频中的时空特征学习是计算机视觉领域的基本问题。本文提出了一种新的架构,称为外观与关系网络(Appearance-and-Relation Network,ARTNet),用于端到端地学习视频表示。ARTNet由多个通用构建模块堆叠而成,这些模块被称为SMART,其目标是以分离且显式的方式同时从RGB输入中建模外观和关系。具体而言,SMART模块将时空学习模块解耦为用于空间建模的外观分支和用于时间建模的关系分支。外观分支基于每帧像素或滤波器响应的线性组合实现,而关系分支则基于多帧之间像素或滤波器响应的乘法交互设计。我们在三个动作识别基准数据集上进行了实验:Kinetics、UCF101和HMDB51,结果表明SMART模块在时空特征学习方面明显优于3D卷积。在相同的训练设置下,ARTNet在这三个数据集上的性能优于现有的最先进方法。