11 天前
基于Transformer的端到端时序动作检测
Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Shiwei Zhang, Song Bai, Xiang Bai

摘要
时间动作检测(Temporal Action Detection, TAD)旨在识别未剪辑视频中每个动作实例的语义标签及其时间区间,是视频理解领域的一项基础且具有挑战性的任务。以往的方法通常采用复杂的处理流程,往往需要训练多个网络,并依赖于人工设计的操作(如非极大值抑制和锚框生成),这不仅限制了模型的灵活性,也阻碍了端到端的学习。本文提出一种基于Transformer的端到端时间动作检测方法,命名为TadTR。该方法仅需少量可学习的嵌入向量(称为动作查询),即可自适应地从视频中提取每个查询对应的时间上下文信息,并直接基于上下文预测动作实例。为使Transformer更好地适应TAD任务,本文提出了三项改进以增强其局部性感知能力。核心是提出一种时间可变形注意力模块,该模块能够有选择地关注视频中稀疏的关键片段。此外,设计了片段细化机制与动作置信度回归头,分别用于优化预测结果的时间边界和置信度评分。得益于这一简洁的架构,TadTR在计算成本上显著低于以往检测器,同时保持了卓越的性能表现。作为独立完整的检测器,TadTR在THUMOS14数据集上达到56.7%的mAP,在HACS Segments数据集上达到32.09%的mAP,均达到当前最优水平;结合额外的动作分类器后,在ActivityNet-1.3数据集上进一步取得36.75%的mAP。代码已开源,地址为:https://github.com/xlliu7/TadTR。