6 个月前

摘要

时间动作检测（Temporal Action Detection, TAD）旨在从未剪辑的视频中检测出所有动作的起止边界及其对应类别。然而，视频中动作边界的模糊性常常导致现有方法在预测动作边界时精度不足。为解决这一问题，本文提出一种单阶段框架——TriDet。首先，我们设计了一种三重头结构（Trident-head），通过建模边界附近的相对概率分布来更精确地刻画动作边界。其次，针对基于Transformer的方法中存在的排序损失问题（即瞬间可区分性退化），我们提出一种高效且可扩展的粒度感知（Scalable-Granularity Perception, SGP）模块，以缓解该问题。为进一步提升视频主干网络在瞬间可区分性方面的性能，我们利用预训练大模型强大的表示能力，并系统研究其在TAD任务上的表现。最后，考虑到分类任务对时空上下文信息的充分依赖，我们设计了一种解耦式特征金字塔网络，采用独立的特征金字塔结构，从大模型中提取丰富的空间上下文信息以增强定位能力。实验结果表明，TriDet具有良好的鲁棒性，并在多个TAD数据集（包括层级化（多标签）TAD数据集）上取得了当前最优的性能。

源 PDF