
摘要
传统的时序动作检测(Temporal Action Detection, TAD)通常处理的是未修剪视频中动作实例数量较少且仅包含单一标签的情况(如 ActivityNet、THUMOS 数据集)。然而,这种设定在实际应用中可能并不现实,因为不同类别的动作在真实场景中常常同时发生。本文聚焦于多标签时序动作检测任务,旨在从多标签未修剪视频中定位所有动作实例。多标签 TAD 具有更高的挑战性,因为它不仅需要在单个视频内实现细粒度的动作类别区分,还需精确地定位共现的动作实例。为应对这一挑战,我们基于传统 TAD 的稀疏查询(sparse query)检测范式进行扩展,提出了一种名为 PointTAD 的多标签时序动作检测框架。具体而言,PointTAD 引入了一组可学习的查询点(query points),用于表征每个动作实例的重要帧。这种基于点的表示方法提供了一种灵活的机制,能够精准定位动作边界处的判别性帧以及动作内部的关键帧。此外,我们设计了多层级交互模块(Multi-level Interactive Module)来执行动作解码过程,以同时捕捉点级别与实例级别的动作语义信息。最终,PointTAD 构建了一个仅依赖 RGB 输入的端到端可训练框架,具有部署简便的优势。我们在两个主流基准数据集上对所提方法进行了评估,并引入了适用于多标签 TAD 的新指标——检测平均精度(detection-mAP)。实验结果表明,相较于以往所有方法,我们的模型在 detection-mAP 指标上取得了显著提升;同时,在 segmentation-mAP 指标下也表现出优异的性能。代码已开源,地址为:https://github.com/MCG-NJU/PointTAD。