
摘要
镜头边界检测(Shot Boundary Detection, SBD)是许多视频分析任务的重要组成部分,例如动作识别、视频索引、摘要生成和编辑。以往的研究通常结合低级特征(如颜色直方图)与简单的模型(如支持向量机)来实现这一目标。相比之下,我们提出了一种从像素到最终镜头边界的端到端学习方法。为了训练这种模型,我们基于所有镜头边界都是生成的这一见解,创建了一个包含一百万帧的数据集,并自动生成了诸如切换、溶解和渐变等过渡效果。为了高效地分析数小时的视频,我们提出了一种时间上完全卷积的卷积神经网络(Convolutional Neural Network, CNN),从而可以在无需重复处理帧的情况下利用较大的时间上下文。通过这种架构,我们的方法在获得最先进结果的同时,运行速度达到了超过120倍实时的速度。