
摘要
在线动作检测是指在流媒体视频中尽可能快地预测出正在发生的动作。主要挑战在于模型无法获取未来的信息,只能依赖于历史信息,即迄今为止观察到的帧来做出预测。因此,强调对当前帧预测更有信息量的历史部分变得尤为重要。我们提出了GateHUB(带背景抑制的门控历史单元),该方法包含一种新颖的位置引导门控交叉注意力机制,用于根据历史部分对当前帧预测的信息量来增强或抑制这些部分。GateHUB进一步提出了Future-augmented History(FaH)方法,在后续帧可用时利用它们使历史特征更具信息量。在单一统一框架下,GateHUB结合了变压器在长程时间建模方面的能力和递归模型选择性编码相关信息的能力。此外,GateHUB引入了背景抑制目标,以进一步减少与动作帧非常相似的虚假正背景帧的影响。在THUMOS、TVSeries和HDD三个基准数据集上的广泛验证表明,GateHUB显著优于所有现有方法,并且比现有的最佳工作更加高效。此外,无需光流信息的GateHUB版本能够在比所有需要RGB和光流信息进行预测的现有方法高2.8倍的帧率下实现更高的或接近的准确性。