
摘要
时间动作提议生成是一项具有挑战性和前景的任务,旨在定位现实世界视频中可能发生动作或事件的时间区域。当前自下而上的提议生成方法可以生成边界精确的提议,但无法高效地为检索提议生成足够可靠的置信度分数。为了解决这些难题,我们引入了边界匹配(Boundary-Matching, BM)机制来评估密集分布的提议的置信度分数,该机制将一个提议表示为起始和结束边界的匹配对,并将所有密集分布的BM对组合成BM置信度图。基于BM机制,我们提出了一种有效、高效且端到端的提议生成方法,称为边界匹配网络(Boundary-Matching Network, BMN),该方法可以同时生成时间边界精确的提议及其可靠的置信度分数。BMN的两个分支在一个统一的框架中联合训练。我们在两个具有挑战性的数据集上进行了实验:THUMOS-14和ActivityNet-1.3,在这些数据集中,BMN展示了显著的性能提升,并且具有出色的效率和泛化能力。此外,结合现有的动作分类器,BMN可以实现最先进的时间动作检测性能。