2 个月前

时间切片:视频分析的统一方法

Dotan Kaufman; Gil Levi; Tal Hassner; Lior Wolf
时间切片:视频分析的统一方法
摘要

我们提出了一种视频理解的一般方法,该方法受到成功应用于2D图像分析的语义迁移技术的启发。我们的方法将视频视为一系列1D片段,每个片段都与其自身的语义相关联。这些语义的性质——自然语言字幕或其他标签——取决于具体任务。测试视频通过建立其片段与具有已知语义的参考视频片段之间的对应关系来进行处理,之后,参考视频的语义可以迁移到测试视频中。我们描述了两种匹配方法,这两种方法均旨在确保(a)参考片段与测试片段相似,并且(b)所选参考片段的语义整体上具有一致性并保持时间连贯性。我们在LSMDC'16基准上进行视频字幕生成,在SumMe和TVSum基准上进行视频摘要生成,在Thumos2014基准上进行时序动作检测,并在Greatest Hits基准上进行声音预测。我们的方法不仅在五个基准中的四个上超越了现有技术水平,而且重要的是,据我们所知,它是唯一一种成功应用于如此广泛任务范围的单一方法。