
摘要
时间动作检测(Temporal Action Detection, TAD)是视频理解领域中一项重要且具有挑战性的任务。其目标是在未剪辑的视频中,同时预测每个动作实例的语义标签及其时间区间。目前,大多数现有方法采用“仅头部学习”(head-only learning)的范式,即预先对视频编码器进行动作分类任务的训练,仅对编码器之上的检测头进行优化以完成TAD任务。然而,端到端(end-to-end)学习在该任务中的实际效果尚未得到系统性评估。此外,关于端到端TAD中效率与准确率权衡关系的深入研究仍显不足。本文对端到端时间动作检测进行了系统的实证研究。实验结果验证了端到端学习相较于仅头部学习的显著优势,最高可带来11%的性能提升。同时,我们系统考察了多种影响TAD性能与推理速度的设计因素,包括检测头结构、视频编码器选择以及输入视频的分辨率。基于上述分析,我们构建了一个中等分辨率的基线检测器,在保持端到端方法当前最先进性能的同时,推理速度提升了超过4倍。我们期望本研究能为端到端学习在TAD任务中的应用提供指导,并激发该领域未来的研究进展。相关代码与模型已开源,可访问:https://github.com/xlliu7/E2E-TAD。