2 个月前

时空残差网络在视频动作识别中的应用

Christoph Feichtenhofer; Axel Pinz; Richard P. Wildes
时空残差网络在视频动作识别中的应用
摘要

双流卷积网络(ConvNets)在视频中的人类动作识别方面表现出色。近年来,残差网络(ResNets)作为一种新的技术,用于训练极其深层的架构。在本文中,我们引入了时空残差网络(Spatiotemporal ResNets),将这两种方法结合起来。我们的新型架构通过两种方式引入残差连接,将残差网络推广到时空域。首先,我们在双流架构的外观和运动路径之间注入残差连接,以允许两流之间的时空交互。其次,我们将预训练的图像卷积网络转换为时空网络,通过为其配备可学习的卷积滤波器来实现这一目标。这些滤波器被初始化为时间残差连接,并作用于相邻的时间特征图上。这种方法随着模型深度的增加逐渐扩大时空感受野,并自然地集成了图像卷积网络的设计原则。整个模型采用端到端的方式进行训练,以支持复杂时空特征的层次化学习。我们使用两个广泛使用的动作识别基准数据集对提出的新型时空残差网络进行了评估,在这些数据集上该模型超过了以往的最佳性能。

时空残差网络在视频动作识别中的应用 | 最新论文 | HyperAI超神经