6 个月前

摘要

弱监督视频级标签下的异常检测通常被建模为多实例学习（Multiple Instance Learning, MIL）问题，其中每个视频被视为由多个视频片段组成的“包”（bag），目标是识别包含异常事件的片段。尽管现有方法在检测性能上表现良好，但其对正例（即异常视频中的稀有异常片段）的识别仍严重受到主导负例（正常片段）的偏差影响，尤其当异常事件为细微异常、与正常事件仅有微小差异时，这一问题更为突出。此外，许多现有方法忽视了视频中重要的时序依赖关系，进一步加剧了识别偏差。为解决上述问题，本文提出一种新颖且理论严谨的方法——鲁棒时序特征幅度学习（Robust Temporal Feature Magnitude learning, RTFM）。该方法通过训练一个特征幅度学习函数，有效提升对正例的识别能力，显著增强了MIL方法对异常视频中负例的鲁棒性。同时，RTFM引入空洞卷积（dilated convolutions）与自注意力机制（self-attention mechanisms），以更准确地捕捉长距离与短距离时序依赖关系，从而实现对特征幅度的更忠实建模。大量实验表明，基于RTFM的MIL模型在四个基准数据集（ShanghaiTech、UCF-Crime、XD-Violence和UCSD-Peds）上均显著优于多种前沿方法；此外，该模型在细微异常的判别能力与样本效率方面也取得显著提升。代码已开源，获取地址为：https://github.com/tianyu0207/RTFM。

源 PDF 查看代码