3 个月前

用于视频目标检测的视频间候选关系挖掘

{Xiaojun Chang, Yu Qiao, Yali Wang, Mingfei Han}
用于视频目标检测的视频间候选关系挖掘
摘要

近期研究表明,融合不同帧中候选区域(proposals)的上下文信息,能够显著提升视频目标检测的性能。然而,现有方法主要关注单个视频内部候选区域之间的关联关系,而忽略了跨视频候选区域间的内在联系,后者可为识别易混淆目标提供重要的判别性线索。为解决这一局限,本文提出一种新型的跨视频候选区域关系模块(Inter-Video Proposal Relation module)。该模块基于简洁的多层级三元组选择机制,通过建模不同视频间困难候选区域之间的关系,学习更具判别性的目标表示。此外,我们设计了一种分层视频关系网络(Hierarchical Video Relation Network, HVR-Net),以分层方式整合视频内部与跨视频的候选区域关系。该设计能够逐步挖掘并利用视频内与跨视频的上下文信息,从而有效提升视频目标检测性能。我们在大规模视频目标检测基准数据集ImageNet VID上对所提方法进行了验证,结果表明HVR-Net取得了当前最优(SOTA)的检测性能。相关代码与模型将在后续公开发布。

用于视频目标检测的视频间候选关系挖掘 | 论文 | HyperAI超神经