
摘要
我们提出了一种用于精确时间定位人类活动的时序上下文网络(Temporal Context Network, TCN)。类似于Faster-RCNN架构,TCN在视频中以等间隔放置多个时间尺度的提议框。我们提出了一种新的表示方法来对这些提议框进行排序。由于仅在片段内部池化特征不足以预测活动边界,我们构建了一种显式捕捉提议框周围上下文的表示方法来进行排序。对于每个提议框内的时序片段,特征在一对尺度上均匀采样,并输入到一个时序卷积神经网络(Temporal Convolutional Neural Network, TCN)中进行分类。在对提议框进行排序后,应用非极大值抑制,并进行最终分类以获得检测结果。TCN在ActivityNet数据集和THUMOS14数据集上的表现优于现有最先进方法。