2 个月前
一种用于足球视频动作检测的情境感知损失函数
Cioppa, Anthony ; Deliège, Adrien ; Giancola, Silvio ; Ghanem, Bernard ; Van Droogenbroeck, Marc ; Gade, Rikke ; Moeslund, Thomas B.

摘要
在视频理解中,动作定位(action spotting)是指对由人类引起的、用单个时间戳标注的事件进行时间上的定位。本文提出了一种新颖的损失函数,该函数特别考虑了每个动作周围自然存在的时序上下文,而不仅仅关注用于定位的单个标注帧。我们在大规模足球视频数据集SoccerNet上对该损失函数进行了基准测试,结果表明其性能比基线方法提高了12.8%。我们还展示了该损失函数在ActivityNet数据集上对一般活动提案和检测的泛化能力,通过精确定位每项活动的开始和结束时间来实现。此外,我们提供了一个扩展的消融研究,并展示了足球视频中动作定位的一些挑战性案例。最后,我们定性地说明了该损失函数如何诱导对动作的时间精确理解,并展示了如何利用这种语义知识自动生成精彩片段。