6 个月前

摘要

视频语义分割（Video Semantic Segmentation, VSS）的核心在于如何有效利用时序信息进行预测。以往的研究主要致力于开发新型技术以计算帧间关联性，例如光流（optical flow）和注意力机制（attention）。与此不同，本文从一个全新的视角出发，通过挖掘帧间关联性之间的内在关系，实现更优的时序信息聚合。我们从两个方面探索关联性之间的关系：单尺度内在相关性与多尺度关联性。受传统特征处理方法的启发，本文提出单尺度关联性精炼（Single-scale Affinity Refinement, SAR）与多尺度关联性聚合（Multi-scale Affinity Aggregation, MAA）机制。为使MAA能够高效执行，我们进一步提出一种选择性标记掩码（Selective Token Masking, STM）策略，在计算关联性时，为不同尺度选择一组具有一致性的参考标记（reference tokens），该策略不仅保障了多尺度聚合的可行性，也显著提升了方法的计算效率。最终，经过SAR与MAA增强的帧间关联性被用于自适应地聚合时序信息。大量实验结果表明，所提方法在性能上优于当前最先进的VSS方法。代码已公开，可访问 https://github.com/GuoleiSun/VSS-MRCFA 获取。

源 PDF