
摘要
我们研究了视频中的动作检测问题。借鉴二维图像中物体检测的最新进展,我们利用从形状和运动线索派生出的丰富特征层次构建动作模型。我们通过两种方式结合外观和运动信息。首先,从图像区域建议开始,我们选择那些运动显著的区域,这些区域更有可能包含动作。这大大减少了需要处理的区域数量,从而加快了计算速度。其次,我们提取时空特征表示,利用卷积神经网络构建强大的分类器。我们将预测结果连接起来,生成时间上一致的动作检测结果,称为“动作管”。实验表明,我们的方法在动作检测任务中优于其他技术。
我们研究了视频中的动作检测问题。借鉴二维图像中物体检测的最新进展,我们利用从形状和运动线索派生出的丰富特征层次构建动作模型。我们通过两种方式结合外观和运动信息。首先,从图像区域建议开始,我们选择那些运动显著的区域,这些区域更有可能包含动作。这大大减少了需要处理的区域数量,从而加快了计算速度。其次,我们提取时空特征表示,利用卷积神经网络构建强大的分类器。我们将预测结果连接起来,生成时间上一致的动作检测结果,称为“动作管”。实验表明,我们的方法在动作检测任务中优于其他技术。