
摘要
时间动作检测(Temporal Action Detection, TAD)在视频理解领域受到广泛关注,其主流方法通常借鉴图像目标检测的流程。然而,当前TAD方法普遍存在设计复杂的问题,例如采用双流特征提取、多阶段训练、复杂的时序建模以及全局上下文融合等技术。本文并不旨在提出新的TAD技术,而是针对当前方法中普遍存在的设计复杂性和检测效率低下的现状,提出一个简单、直接但至关重要的基础模型。我们所提出的简单基线方法(命名为BasicTAD)将TAD流程分解为若干核心组件:数据采样、主干网络设计、颈部结构构建以及检测头设计。我们系统地研究了各组件中现有的技术方案,并尤为重要的是,得益于结构的简洁性,实现了整个流程的端到端训练。实验结果表明,这一简洁的BasicTAD在仅使用RGB输入的情况下,取得了接近当前最先进双流方法的优异性能,且具备实时推理能力,构成了一项极具竞争力的基线。在此基础上,我们进一步通过在网络表示中保留更多时空信息,提出了改进版本PlusTAD。实验证明,PlusTAD在THUMOS14和FineAction数据集上均表现出显著优于先前方法的性能,同时保持了极高的效率。此外,我们对所提出方法进行了深入的可视化分析与错误诊断,旨在为TAD任务的本质特性提供更深刻的洞见。本研究所提出的框架可作为未来TAD研究的强有力基准。相关代码与模型将开源发布于:https://github.com/MCG-NJU/BasicTAD。