8 天前

无监督域自适应:利用视觉-语言预训练

{Wenlve Zhou and Zhiheng Zhou}
摘要

本文针对无监督域自适应(Unsupervised Domain Adaptation, UDA)中的两个关键挑战,聚焦于挖掘视觉-语言预训练(Vision-Language Pre-training, VLP)模型的潜力,提出了一套创新性解决方案。首先,现有的UDA方法主要依赖于在ImageNet上预训练的视觉模型,而VLP模型在UDA任务中的潜力尚未得到充分探索。VLP模型所具备的丰富多模态表征能力,为提升UDA性能提供了巨大潜力。为此,本文提出一种名为跨模态知识蒸馏(Cross-Modal Knowledge Distillation, CMKD)的新方法,利用VLP模型作为教师模型,指导目标域中的学习过程,显著提升了模型性能,达到当前最优水平。其次,现有UDA范式通常为每个迁移任务单独训练模型,导致存储开销巨大,且随着迁移任务数量的增加,模型部署变得极不现实。为应对这一挑战,本文提出残差稀疏训练(Residual Sparse Training, RST)方法,充分利用VLP模型大规模预训练带来的优势。该方法仅需对VLP模型参数进行极小幅度的调整(约0.1%~0.5%),即可实现与微调(fine-tuning)相当的性能,极大降低了存储与计算成本。将CMKD与RST相结合,本文构建了一个全面的解决方案,既高效利用了VLP模型在UDA任务中的强大能力,又显著减少了模型部署时的存储负担。此外,CMKD可作为基线方法,与其他主流技术(如FixMatch)结合使用,进一步提升UDA的整体性能。在标准基准测试上,本文所提方法均显著优于现有技术。相关代码将公开于:https://github.com/Wenlve-Zhou/VLP-UDA。

无监督域自适应:利用视觉-语言预训练 | 最新论文 | HyperAI超神经