8 天前
基于时空像素级对比学习的无源域自适应视频语义分割
Shao-Yuan Lo, Poojan Oza, Sumanth Chennupati, Alejandro Galindo, Vishal M. Patel

摘要
无监督域自适应(Unsupervised Domain Adaptation, UDA)的语义分割方法通过同时访问源域和目标域数据,将带有标签的源域知识迁移到无标签的目标域。然而,在实际应用场景中,源域数据的访问往往受到限制甚至不可行,导致UDA方法的实用性受限。为应对这一挑战,近期研究转向了无源域域自适应(Source-Free Domain Adaptation, SFDA)框架,旨在不依赖源域数据的情况下,将已在源域训练好的模型适应至目标域。然而,现有的SFDA方法仅利用图像级信息进行适应,难以在视频任务中发挥最优性能。本文针对视频语义分割(Video Semantic Segmentation, VSS)场景下的SFDA问题展开研究,充分挖掘视频数据中的时序信息以提升域自适应能力。为此,我们提出了一种新颖的时空像素级对比学习方法(Spatio-Temporal Pixel-Level, STPL),该方法充分利用时空信息,更有效地应对源域数据不可获取的挑战。STPL显式地学习时空空间中像素间的语义关联,为无标签目标域提供强大的自监督信号,从而实现更鲁棒的模型适应。大量实验结果表明,与当前主流的UDA和SFDA方法相比,STPL在多个VSS基准测试上均取得了领先性能。代码已开源,地址为:https://github.com/shaoyuanlo/STPL