18 天前

用于视频理解的可扩展分层交互行为检测方法

{Junho Jin, Jinyoung Moon, Yongjin Kwon, Kyuchang Kang, Kyoung Park, Jongyoul Park}
摘要

在视频理解任务中,即分析视频中“谁对谁做了什么”,动作与物体是核心要素。现有大多数动作识别研究主要针对经过良好裁剪的视频,集中于提升分类性能。然而,在实际场景中,动作在时间和空间上往往相互重叠,因此需要同时实现动作的定位与识别,即动作检测。此外,多数现有研究未考虑对新添加动作的可扩展性——即在已有模型基础上引入此前未训练过的动作。为此,本文提出一种可扩展的分层方法,用于检测通用动作与继承性动作。其中,通用动作通过结合物体运动及其间空间关系进行建模,而继承性动作则通过本体(ontology)与规则驱动的方法,依据相关物体进行定义。该方法的分层架构使其能够基于两物体间空间关系,检测任意交互动作。实验结果表明,该方法利用物体信息实现了90.27%的F值。此外,本文还详细阐述了该方法在来自与训练数据集不同视频域的新动作检测中的可扩展性。