
摘要
监控摄像头网络的显著增长需要可扩展的人工智能解决方案,以高效分析这些网络产生的大量视频数据。作为对监控录像进行的典型分析之一,视频暴力检测近年来受到了广泛关注。大多数研究集中在使用监督方法改进现有技术上,而对半监督学习方法的关注则相对较少。本研究引入了一种通过半监督方法超越现有模型的强化学习模型。该方法的主要创新点在于引入了半监督硬注意力机制。利用硬注意力机制,可以识别并分离出视频中的关键区域,从而将非信息部分的数据排除在外。通过去除冗余数据并专注于高分辨率下的有用视觉信息,提高了模型的准确性。使用半监督强化学习算法实现硬注意力机制消除了在视频暴力数据集中标注注意力的需求,从而使这些方法得以广泛应用。所提出的模型采用了预训练的I3D主干网络来加速和稳定训练过程。该模型在RWF和Hockey数据集上分别达到了90.4%和98.7%的最先进准确率。