11 天前

基于Transformer的端到端时序动作检测

Xiaolong Liu, Qimeng Wang, Yao Hu, Xu Tang, Shiwei Zhang, Song Bai, Xiang Bai

摘要

时间动作检测（Temporal Action Detection, TAD）旨在识别未剪辑视频中每个动作实例的语义标签及其时间区间，是视频理解领域的一项基础且具有挑战性的任务。以往的方法通常采用复杂的处理流程，往往需要训练多个网络，并依赖于人工设计的操作（如非极大值抑制和锚框生成），这不仅限制了模型的灵活性，也阻碍了端到端的学习。本文提出一种基于Transformer的端到端时间动作检测方法，命名为TadTR。该方法仅需少量可学习的嵌入向量（称为动作查询），即可自适应地从视频中提取每个查询对应的时间上下文信息，并直接基于上下文预测动作实例。为使Transformer更好地适应TAD任务，本文提出了三项改进以增强其局部性感知能力。核心是提出一种时间可变形注意力模块，该模块能够有选择地关注视频中稀疏的关键片段。此外，设计了片段细化机制与动作置信度回归头，分别用于优化预测结果的时间边界和置信度评分。得益于这一简洁的架构，TadTR在计算成本上显著低于以往检测器，同时保持了卓越的性能表现。作为独立完整的检测器，TadTR在THUMOS14数据集上达到56.7%的mAP，在HACS Segments数据集上达到32.09%的mAP，均达到当前最优水平；结合额外的动作分类器后，在ActivityNet-1.3数据集上进一步取得36.75%的mAP。代码已开源，地址为：https://github.com/xlliu7/TadTR。