17 天前
基于跨帧关联性的关系挖掘用于视频语义分割
Guolei Sun, Yun Liu, Hao Tang, Ajad Chhatkuli, Le Zhang, Luc Van Gool

摘要
视频语义分割(Video Semantic Segmentation, VSS)的核心在于如何有效利用时序信息进行预测。以往的研究主要致力于开发新型技术以计算帧间关联性,例如光流(optical flow)和注意力机制(attention)。与此不同,本文从一个全新的视角出发,通过挖掘帧间关联性之间的内在关系,实现更优的时序信息聚合。我们从两个方面探索关联性之间的关系:单尺度内在相关性与多尺度关联性。受传统特征处理方法的启发,本文提出单尺度关联性精炼(Single-scale Affinity Refinement, SAR)与多尺度关联性聚合(Multi-scale Affinity Aggregation, MAA)机制。为使MAA能够高效执行,我们进一步提出一种选择性标记掩码(Selective Token Masking, STM)策略,在计算关联性时,为不同尺度选择一组具有一致性的参考标记(reference tokens),该策略不仅保障了多尺度聚合的可行性,也显著提升了方法的计算效率。最终,经过SAR与MAA增强的帧间关联性被用于自适应地聚合时序信息。大量实验结果表明,所提方法在性能上优于当前最先进的VSS方法。代码已公开,可访问 https://github.com/GuoleiSun/VSS-MRCFA 获取。