
摘要
监控视频能够捕捉到多种现实中的异常情况。在本文中,我们提出了一种利用正常和异常视频来学习异常的方法。为了避免在训练视频中标注异常片段或剪辑,这是一项非常耗时的工作,我们建议通过利用弱标签训练视频(即训练标签为视频级别而非片段级别)的深度多实例排序框架来学习异常。在我们的方法中,我们将正常和异常视频视为多实例学习(MIL)中的包,而将视频片段视为实例,并自动学习一个深度异常排序模型,该模型能够预测出较高的异常分数以识别异常视频片段。此外,我们在排序损失函数中引入了稀疏性和时间平滑性约束,以便在训练过程中更好地定位异常。我们还介绍了一个全新的大规模数据集,包含128小时的视频。该数据集由1900段长且未修剪的真实世界监控视频组成,涵盖了13种现实中的异常行为(如打斗、交通事故、入室盗窃、抢劫等)以及正常活动。此数据集可用于两项任务:首先,将所有异常行为归为一组、所有正常活动归为另一组的一般异常检测;其次,识别每一种特定的异常活动。实验结果表明,我们的MIL方法在异常检测性能上相比现有先进方法有了显著提升。我们还提供了几种最近的深度学习基线模型在异常活动识别上的结果。这些基线模型较低的识别性能揭示了我们的数据集极具挑战性,并为未来的研究工作提供了更多机会。数据集可从以下网址获取:https://webpages.uncc.edu/cchen62/dataset.html