8 天前
面向现实世界异常检测的多流深度神经网络与晚期模糊融合
{Ig-JaeKim, Heeseung Choi, Debi Prosad Dogra, Nitin Sharma, Kamalakar Vijay Thakare}
摘要
视频中的异常事件检测也称为离群点检测,机器学习在此类任务中表现出显著的高效性。在对未知视频进行测试时,此类方法的目标是判断视频所属类别,例如正常或异常。本文利用正常与异常视频的视觉信息,训练一种基于深度多实例学习(Deep Multiple Instance Learning, MIL)的分类器,以实现视频的分类。现有多实例学习分类器通常假设训练视频中仅包含短时异常事件,这一假设在真实世界中的异常场景中可能并不成立,且训练视频中出现多次异常的情况亦无法排除。本文研究表明,通过在特征提取过程中引入时间信息,可显著提升异常检测的性能。为实现该目标,本文在训练视频上并行应用了两个时空深度特征提取器,提取出的特征流随后用于训练一种改进的基于多实例学习的分类器。最后,采用模糊聚合方法对各异常得分进行融合,以增强整体判别能力。此外,为验证模型在火灾与交通事故等具体事件分类上的有效性,本文还引入了两个轻量级深度学习分类器进行辅助验证。为评估所提方法的可靠性与性能,本文基于包含13类异常的UCF-Crime视频数据集开展了大量实验。为进一步研究方法的鲁棒性,该数据集被重新划分为五个基于行为严重程度的广义类别。实验结果提供了充分的实证支持,证明在检测流程中引入时序特征能够显著提升异常检测的准确率。尤为重要的是,该模型能够有效识别长时间持续的异常事件,这是现有方法难以实现的突破。所提出的端到端多流架构在异常事件检测任务中取得了高达84.48%的准确率,优于当前主流的视频异常检测方法。同时,在各类别层面的检测准确率相较以往方法提升了6%至14%,充分体现了该模型在复杂现实场景中的优越性能与广泛适用性。