Command Palette
Search for a command to run...
每一帧都有意义:利用范例在视频中进行重复计数
每一帧都有意义:利用范例在视频中进行重复计数
Saptarshi Sinha Alexandros Stergiou Dima Damen
摘要
视频重复计数是指推断视频中反复出现的动作或运动的次数。我们提出了一种基于示例的方法,该方法能够在目标视频内发现不同重复动作之间的视觉对应关系。我们提出的“每一帧都重要”(Every Shot Counts, ESCounts)模型是一种基于注意力机制的编码器-解码器架构,可以对不同长度的视频及其来自相同或不同视频的示例进行编码。在训练过程中,ESCounts 回归到视频中与示例具有高对应性的位置。同时,我们的方法学习了一个潜在空间,用于编码一般重复运动的表示,这使得我们可以在没有示例的情况下进行零样本推理。在常用数据集(RepCount、Countix 和 UCFRep)上进行的大量实验表明,ESCounts 在所有三个数据集上均取得了最先进的性能。详细的消融实验进一步证明了我们方法的有效性。