6 个月前

摘要

时间动作检测（Temporal Action Detection, TAD）是视频理解领域中一项关键且具有挑战性的任务，旨在从长时、未剪辑的视频中检测出每个动作实例的类别及其起止帧。当前大多数模型采用RGB流与光流（Optical-Flow）双流架构来完成TAD任务。然而，这一方法要求将原始RGB帧手动转换为光流帧，不仅引入额外的计算开销，还显著增加处理时间，成为实现实时处理的主要障碍。目前，多数方法采用两阶段策略，需经过候选片段生成与分类两个阶段，导致推理速度下降，且在候选框生成环节需要复杂的超参数调优。相比之下，本文提出一种仅基于RGB流的一阶段无锚框（anchor-free）时间定位方法，并设计了一种新颖的牛顿力学-多层感知机（Newtonian Mechanics-MLP）架构。该方法在保持与现有最先进模型相当的检测精度的同时，显著提升了推理速度。在THUMOS14数据集上，该方法的典型推理速度高达每秒4.44帧，表现极为出色。在实际应用中，由于无需进行光流转换，推理速度将进一步提升。此外，本研究也验证了多层感知机（MLP）在下游任务（如TAD）中具有巨大潜力。相关源代码已开源，地址为：https://github.com/BonedDeng/TadML。

源 PDF