
摘要
在未剪辑视频中生成人类行为提案是一项具有广泛应用的重要而富有挑战性的任务。当前的方法通常受到边界位置噪声和用于提案检索的置信度分数质量较差的影响。本文提出了一种新的框架BSN++,该框架利用互补边界回归器和关系建模进行时间提案生成。首先,我们基于起始和结束边界分类器的互补特性提出了一种新颖的边界回归器。具体而言,我们采用了带有嵌套跳跃连接的U形架构来捕捉丰富的上下文信息,并引入了双向边界匹配机制以提高边界精度。其次,为了弥补先前方法中忽略的提案间关系,我们设计了一个包含两个从位置和通道方面进行自注意力模块的提案关系块。此外,我们发现正负提案和时间持续长度之间不可避免地存在数据不平衡问题,这会损害模型在尾部分布上的性能。为缓解这一问题,我们引入了尺度平衡重采样策略。我们在两个流行的基准数据集ActivityNet-1.3和THUMOS14上进行了广泛的实验,结果表明BSN++达到了最先进的性能。不出所料,在CVPR19 - ActivityNet挑战赛的时间行为定位任务排行榜上,提出的BSN++获得了第一名的成绩。