
摘要
我们研究了在连续、未剪辑的视频流中进行时间活动检测的问题。这是一个具有挑战性的任务,需要提取有意义的空间-时间特征以捕捉活动,并精确地定位每个活动的开始和结束时间。为此,我们提出了一种新的模型——区域卷积三维网络(Region Convolutional 3D Network, R-C3D),该模型首先使用三维全卷积网络对视频流进行编码,然后生成包含活动的候选时间区域,最后将选定的区域分类为特定的活动。由于在提议和分类流程之间共享卷积特征,计算量得以减少。为了进一步提高检测性能,我们高效地将基于光流的运动流与原始RGB流集成在一起。通过在不同层次上融合光流和RGB特征图,两流网络实现了联合优化。此外,在训练阶段引入了在线难例挖掘策略来解决通常在任何检测流程中观察到的极端前景-背景不平衡问题。我们不是启发式地选择候选片段进行最终的活动分类阶段,而是根据它们的表现对其进行排序,并仅选择表现最差的片段来更新模型。这在无需大量超参数调整的情况下提高了模型性能。我们在三个基准数据集上进行了广泛的实验,结果表明我们的方法优于现有的时间活动检测方法。我们的模型在THUMOS'14和Charades数据集上取得了最先进的成果。此外,通过在ActivityNet数据集上的评估,我们进一步证明了我们的模型是一个通用的时间活动检测框架,不依赖于特定数据集属性的假设。