2 个月前
基于轴向轨迹追踪的简单视频分段器
Ju He; Qihang Yu; Inkyu Shin; Xueqing Deng; Alan Yuille; Xiaohui Shen; Liang-Chieh Chen

摘要
视频分割需要在时间上一致地分割和跟踪对象。由于对输入尺寸具有二次依赖性,直接将自注意力机制应用于高分辨率输入特征的视频分割会面临显著挑战,通常会导致GPU内存不足。因此,现代视频分割器要么扩展图像分割器而不引入任何时间注意力机制,要么以简单的方式采用窗口时空注意力。在这项工作中,我们提出了Axial-VS,这是一种通用且简单的框架,通过沿轴向轨迹跟踪对象来增强视频分割器的性能。该框架通过两个子任务解决视频分割问题:短时片段内分割和长时跨片段跟踪。首先,Axial-VS通过引入所提出的轴向轨迹注意力机制来增强现成的片段级视频分割器,在片段内部依次沿高度和宽度轨迹跟踪对象,从而通过捕捉运动轨迹提高了时间一致性。轴向分解显著降低了密集特征的计算复杂度,并在分割质量上优于窗口时空注意力。其次,我们进一步将轴向轨迹注意力应用于片段级分割器中的对象查询,这些查询被学习用于编码对象信息,从而有助于在不同片段之间进行对象跟踪,并在整个视频中实现一致的分割效果。无需额外复杂的技巧,Axial-VS在视频分割基准测试中展示了最先进的结果,强调了其在解决现代片段级视频分割器局限性方面的有效性。代码和模型可在https://github.com/TACJu/Axial-VS 获取。