
摘要
异常行为检测是计算机视觉领域中最具挑战性的任务之一。本研究受到近期先进异常行为检测方法的启发,这些方法通过引入多实例学习(Multiple Instance Learning, MIL),利用正常与异常视频样本,并结合视频级别的标签信息来学习异常特征。然而,在缺乏时间标注(temporal annotations)的情况下,此类模型在检测异常行为时容易产生误报。为此,本文聚焦于在执行异常行为检测任务的同时,最大限度地降低误报率。结合当前三维深度神经网络在视频动作识别任务中的显著进展,以及对减少误报的迫切需求,我们提出在方法中引入3D ResNet结构,以有效提取视频中的时空特征。随后,基于所提取的特征,结合深度多实例学习框架与本文提出的排序损失函数(ranking loss),模型能够实现对视频片段级别的异常程度评分预测。实验结果表明,所提出的3D深度多实例学习结合ResNet方法(MILR)在UCF-Crime基准数据集上取得了优于现有先进方法的性能。该方法的有效性已在UCF-Crime数据集上得到充分验证。