13 天前

基于自监督的时序关系建模用于动作分割

Dong Wang, Di Hu, Xingjian Li, Dejing Dou
基于自监督的时序关系建模用于动作分割
摘要

视频中的时序关系建模对于人类行为理解(如动作识别与动作分割)至关重要。尽管图卷积网络(Graph Convolution Networks, GCNs)在诸多任务中展现出在关系推理方面的显著优势,但在长视频序列上有效应用图卷积网络仍面临挑战。其主要原因在于视频帧数量庞大,导致GCN难以有效捕捉和建模视频中的时序关系。为解决这一问题,本文提出一种高效的GCN模块——空洞时序图推理模块(Dilated Temporal Graph Reasoning Module, DTGRM),旨在建模视频帧之间在不同时间跨度下的时序关系与依赖性。具体而言,该模块通过构建多层级空洞时序图来捕捉和建模时序关系,其中节点代表视频中不同时刻的帧。此外,为进一步增强模型的时序推理能力,本文还引入一种辅助的自监督任务,促使空洞时序图推理模块能够自动发现并纠正视频中的错误时序关系。实验结果表明,所提出的DTGRM模型在三个具有挑战性的数据集——50Salads、佐治亚理工学院第一人称活动数据集(GTEA)以及Breakfast数据集上,均优于当前最先进的动作分割模型。代码已开源,地址为:https://github.com/redwang/DTGRM。