
摘要
视频动作分割已在多个领域得到广泛应用。以往大多数研究均采用基于视频的视觉模型来实现这一任务,但这些方法通常依赖于较大的感受野,或使用LSTM、Transformer等结构来捕捉视频中的长时依赖关系,导致计算资源消耗巨大。为应对这一挑战,图结构模型被提出。然而,现有的图模型在精度方面仍存在不足。为此,本研究提出一种新型图结构方法——Semantic2Graph,用于建模视频中的长时依赖关系,从而在降低计算成本的同时提升模型精度。我们以帧为单位构建视频的图结构,利用时间边(temporal edges)建模视频中动作之间的时序关系与动作顺序。此外,我们设计了正负语义边(positive and negative semantic edges)及其对应的边权重,以同时捕捉视频动作中的长时与短时语义关联。节点属性则融合了从视频内容、图结构及标签文本中提取的丰富多模态特征,涵盖视觉、结构与语义线索。为有效融合这些多模态信息,我们采用图神经网络(Graph Neural Network, GNN)对节点特征进行融合,并完成动作标签分类。实验结果表明,Semantic2Graph在性能上优于当前最先进的方法,尤其在GTEA和50Salads等基准数据集上表现突出。多组消融实验进一步验证了语义特征在提升模型性能中的关键作用。值得注意的是,Semantic2Graph通过引入语义边,实现了对长时依赖关系的高效、低成本建模,充分证明了其在缓解基于视频的视觉模型所面临的计算资源约束问题上的实用价值。