
摘要
时间动作检测(Temporal Action Detection, TAD)是视频理解领域中一项关键且具有挑战性的任务,旨在从长时、未剪辑的视频中检测出每个动作实例的类别及其起止帧。当前大多数模型采用RGB流与光流(Optical-Flow)双流架构来完成TAD任务。然而,这一方法要求将原始RGB帧手动转换为光流帧,不仅引入额外的计算开销,还显著增加处理时间,成为实现实时处理的主要障碍。目前,多数方法采用两阶段策略,需经过候选片段生成与分类两个阶段,导致推理速度下降,且在候选框生成环节需要复杂的超参数调优。相比之下,本文提出一种仅基于RGB流的一阶段无锚框(anchor-free)时间定位方法,并设计了一种新颖的牛顿力学-多层感知机(Newtonian Mechanics-MLP)架构。该方法在保持与现有最先进模型相当的检测精度的同时,显著提升了推理速度。在THUMOS14数据集上,该方法的典型推理速度高达每秒4.44帧,表现极为出色。在实际应用中,由于无需进行光流转换,推理速度将进一步提升。此外,本研究也验证了多层感知机(MLP)在下游任务(如TAD)中具有巨大潜力。相关源代码已开源,地址为:https://github.com/BonedDeng/TadML。