2 个月前

OadTR:基于变压器的在线行为检测

Xiang Wang; Shiwei Zhang; Zhiwu Qing; Yuanjie Shao; Zhengrong Zuo; Changxin Gao; Nong Sang
OadTR:基于变压器的在线行为检测
摘要

最近的在线动作检测方法大多倾向于应用循环神经网络(RNN)来捕捉长时序结构。然而,RNN存在非并行性和梯度消失的问题,因此难以优化。在本文中,我们提出了一种基于Transformer的新编码器-解码器框架,命名为OadTR,以解决这些问题。该框架中的编码器附加了一个任务标记(task token),旨在捕捉历史观测之间的关系和全局交互。解码器通过聚合预期的未来片段表示来提取辅助信息。因此,OadTR可以通过同时编码历史信息和预测未来上下文来识别当前的动作。我们在三个具有挑战性的数据集上对提出的OadTR进行了广泛的评估:HDD、TVSeries 和 THUMOS14。实验结果表明,OadTR在训练和推理速度上均优于现有的基于RNN的方法,并且在mAP和mcAP两个指标上显著超越了现有最先进方法。代码可在https://github.com/wangxiang1230/OadTR 获取。