
摘要
我们提出了一种针对时序动作分割任务的有效框架,即动作片段精炼框架(Action Segment Refinement Framework, ASRF)。该模型架构包含一个长期特征提取器以及两个分支:动作分割分支(Action Segmentation Branch, ASB)和边界回归分支(Boundary Regression Branch, BRB)。长期特征提取器为两个分支提供具有宽时域感受野的共享特征。ASB负责对视频帧进行动作类别分类,而BRB则对动作边界的概率进行回归。BRB预测的动作边界用于精炼ASB的输出,从而显著提升整体性能。本研究的主要贡献有三方面:(i)我们提出了一种面向时序动作分割的ASRF框架,将该任务分解为帧级动作分类与动作边界回归两个阶段。该框架通过预测的动作边界对帧级动作类别假设进行精炼,提升了分割精度;(ii)我们设计了一种用于平滑动作概率过渡的损失函数,并系统分析了多种损失函数组合在时序动作分割任务中的表现;(iii)所提出的框架在三个具有挑战性的公开数据集上均优于现有最先进方法,段级编辑距离(segmental edit distance)最高提升达13.7%,段级F1分数最高提升达16.1%。相关代码将很快公开发布。