17 天前
BoxMask:重新审视用于视频目标检测的边界框监督
Khurram Azeem Hashmi, Alain Pagani, Didier Stricker, Muhammamd Zeshan Afzal

摘要
我们提出了一种新颖、简洁 yet 高效的视频目标检测提升方法。我们观察到,以往的工作主要基于实例级别的特征聚合,不可避免地忽略了精细化的像素级表征,从而导致在外观或运动特征相似的对象之间产生混淆。为解决这一局限性,我们提出了BoxMask方法,通过引入类别感知的像素级信息,有效学习具有区分性的特征表示。我们简单地将边界框级标注视为每个目标的粗粒度掩码,用以监督模型训练。所提出的模块可无缝集成至任意基于区域的检测器中,显著提升检测性能。在ImageNet VID和EPIC KITCHENS数据集上的大量实验表明,将BoxMask模块引入多种近期先进的主流方法后,均取得了持续且显著的性能提升。