
摘要
我们针对第一人称视角程序性任务视频的在线动作分割问题提出解决方案。尽管以往研究主要集中在离线动作分割任务上,即在训练和推理阶段均可访问完整的视频序列,但向在线动作分割的过渡对于增强现实(AR)/虚拟现实(VR)任务助手等实际应用场景至关重要。值得注意的是,若直接将离线训练的模型用于在线推理,由于训练与推理阶段在数据可观测性上的不一致性,会导致性能显著下降。为此,我们提出一种新型在线动作分割框架:首先,对现有模型架构进行改造,使其具备因果性(causal),以适应在线推理中仅能访问当前及历史信息的限制;其次,设计了一种新颖的动作进展预测模块,用于动态估计当前正在进行动作的进展状态,并利用该进展信息对因果动作分割结果进行优化与修正;第三,我们提出从训练视频中学习任务图(task graph),并借助任务图实现平滑且符合流程逻辑的动作分割。通过将动作进展预测与任务图信息与因果动作分割相结合,本框架有效缓解了在线动作分割中的预测不确定性与过度分割问题,在三个第一人称视角数据集上均取得了显著的性能提升。