
摘要
本文研究视频中人类动作的时序分割问题。我们提出一种新型模型——时序可变形残差网络(Temporal Deformable Residual Network, TDRN),旨在通过多时序尺度分析视频片段,实现对视频帧的精准标注。TDRN同时计算两条并行的时序流:其一为残差流(Residual Stream),在完整的时间分辨率下分析视频信息;其二为池化/反池化流(Pooling/Unpooling Stream),在不同尺度下捕捉长程时序依赖关系。前者有助于实现局部、细粒度的动作分割,后者则利用多尺度上下文信息提升帧分类的准确性。两条流均由一组采用可变形卷积的时序残差模块构建,并在全视频时间分辨率下通过时序残差方式进行融合。在邓迪大学50种沙拉(University of Dundee 50 Salads)、佐治亚理工学院自指活动(Georgia Tech Egocentric Activities)以及约翰·霍普金斯大学- ISI 动作与技能评估工作组数据集(JHU-ISI Gesture and Skill Assessment Working Set)上的实验结果表明,TDRN在帧级分割准确率、段级编辑距离分数(segmental edit score)以及段级重叠F1分数(segmental overlap F1 score)三项指标上均优于当前最先进方法。