6 个月前

摘要

时间动作检测（Temporal Action Detection, TAD）是视频理解领域中一项重要且具有挑战性的任务。其目标是在未剪辑的视频中，同时预测每个动作实例的语义标签及其时间区间。目前，大多数现有方法采用“仅头部学习”（head-only learning）的范式，即预先对视频编码器进行动作分类任务的训练，仅对编码器之上的检测头进行优化以完成TAD任务。然而，端到端（end-to-end）学习在该任务中的实际效果尚未得到系统性评估。此外，关于端到端TAD中效率与准确率权衡关系的深入研究仍显不足。本文对端到端时间动作检测进行了系统的实证研究。实验结果验证了端到端学习相较于仅头部学习的显著优势，最高可带来11%的性能提升。同时，我们系统考察了多种影响TAD性能与推理速度的设计因素，包括检测头结构、视频编码器选择以及输入视频的分辨率。基于上述分析，我们构建了一个中等分辨率的基线检测器，在保持端到端方法当前最先进性能的同时，推理速度提升了超过4倍。我们期望本研究能为端到端学习在TAD任务中的应用提供指导，并激发该领域未来的研究进展。相关代码与模型已开源，可访问：https://github.com/xlliu7/E2E-TAD。

源 PDF