8 天前

基于时空像素级对比学习的无源域自适应视频语义分割

Shao-Yuan Lo, Poojan Oza, Sumanth Chennupati, Alejandro Galindo, Vishal M. Patel

摘要

无监督域自适应（Unsupervised Domain Adaptation, UDA）的语义分割方法通过同时访问源域和目标域数据，将带有标签的源域知识迁移到无标签的目标域。然而，在实际应用场景中，源域数据的访问往往受到限制甚至不可行，导致UDA方法的实用性受限。为应对这一挑战，近期研究转向了无源域域自适应（Source-Free Domain Adaptation, SFDA）框架，旨在不依赖源域数据的情况下，将已在源域训练好的模型适应至目标域。然而，现有的SFDA方法仅利用图像级信息进行适应，难以在视频任务中发挥最优性能。本文针对视频语义分割（Video Semantic Segmentation, VSS）场景下的SFDA问题展开研究，充分挖掘视频数据中的时序信息以提升域自适应能力。为此，我们提出了一种新颖的时空像素级对比学习方法（Spatio-Temporal Pixel-Level, STPL），该方法充分利用时空信息，更有效地应对源域数据不可获取的挑战。STPL显式地学习时空空间中像素间的语义关联，为无标签目标域提供强大的自监督信号，从而实现更鲁棒的模型适应。大量实验结果表明，与当前主流的UDA和SFDA方法相比，STPL在多个VSS基准测试上均取得了领先性能。代码已开源，地址为：https://github.com/shaoyuanlo/STPL