
摘要
当前的视频/动作理解系统在大规模识别任务上已展现出令人瞩目的性能。然而,这些系统可能仅局限于学习识别时空模式,而非真正深入理解动作的内在含义。为了推动视频理解向更真实、更深层次的方向发展,我们提出了“成功-失败动作识别”这一新任务——即区分各类活动中的成功与失败尝试。为此,我们首次构建了一个成对的“成功-失败”动作理解数据集,涵盖以下四个领域:“通用特技”、“网络成功与失败”、“花式投掷”以及“派对游戏”。与现有动作识别数据集不同,该数据集具有较高的类内差异性,使得任务更具挑战性,但依然具备可解性。我们通过原型动作识别网络以及一项新颖的视频检索任务,对成功-失败任务/数据集的特性进行了系统性分析。尽管当前的动作识别方法在该任务上表现尚可,但仍存在显著性能差距,尚未达到理想水平。我们希望借此激发更多研究工作,致力于实现对动作与视频的真正理解。相关数据集将通过 https://github.com/ParitoshParmar/Win-Fail-Action-Recognition 公开获取。