2 个月前
CDC:用于未剪辑视频中精确时间动作定位的卷积-反卷积网络
Zheng Shou; Jonathan Chan; Alireza Zareian; Kazuyuki Miyazawa; Shih-Fu Chang

摘要
时间动作定位是一个重要而具有挑战性的问题。给定一段包含多个动作实例和复杂背景内容的长未剪辑视频,我们不仅需要识别这些动作的类别,还需要精确定位每个实例的开始时间和结束时间。许多最先进的系统使用分段级别的分类器来选择和排名预设边界的候选片段。然而,理想的模型应该超越分段级别,在时间上以细粒度进行密集预测,以确定精确的时间边界。为此,我们设计了一种新颖的卷积-反卷积(Convolutional-De-Convolutional, CDC)网络,在3D ConvNets之上放置了CDC滤波器。3D ConvNets已被证明在抽象动作语义方面非常有效,但会减少输入数据的时间长度。所提出的CDC滤波器同时执行所需的时间上采样和空间下采样操作,以帧级粒度预测动作。它独特之处在于联合建模时空中的动作语义和细粒度的时间动态。我们高效地以端到端的方式训练CDC网络。我们的模型不仅在检测每一帧的动作方面表现出色,还显著提高了时间边界定位的精度。最后,CDC网络展示了极高的效率,在单个GPU服务器上能够处理每秒500帧的数据。我们将尽快更新最终版本并在线发布源代码。