HyperAI超神经

本文针对无监督域自适应（Unsupervised Domain Adaptation, UDA）中的两个关键挑战，聚焦于挖掘视觉-语言预训练（Vision-Language Pre-training, VLP）模型的潜力，提出了一套创新性解决方案。首先，现有的UDA方法主要依赖于在ImageNet上预训练的视觉模型，而VLP模型在UDA任务中的潜力尚未得到充分探索。VLP模型所具备的丰富多模态表征能力，为提升UDA性能提供了巨大潜力。为此，本文提出一种名为跨模态知识蒸馏（Cross-Modal Knowledge Distillation, CMKD）的新方法，利用VLP模型作为教师模型，指导目标域中的学习过程，显著提升了模型性能，达到当前最优水平。其次，现有UDA范式通常为每个迁移任务单独训练模型，导致存储开销巨大，且随着迁移任务数量的增加，模型部署变得极不现实。为应对这一挑战，本文提出残差稀疏训练（Residual Sparse Training, RST）方法，充分利用VLP模型大规模预训练带来的优势。该方法仅需对VLP模型参数进行极小幅度的调整（约0.1%~0.5%），即可实现与微调（fine-tuning）相当的性能，极大降低了存储与计算成本。将CMKD与RST相结合，本文构建了一个全面的解决方案，既高效利用了VLP模型在UDA任务中的强大能力，又显著减少了模型部署时的存储负担。此外，CMKD可作为基线方法，与其他主流技术（如FixMatch）结合使用，进一步提升UDA的整体性能。在标准基准测试上，本文所提方法均显著优于现有技术。相关代码将公开于：https://github.com/Wenlve-Zhou/VLP-UDA。

基准	方法	指标
domain-adaptation-on-imageclef-da	CMKD	Accuracy: 94.3
domain-adaptation-on-office-31	CMKD	Average Accuracy: 94.4
domain-adaptation-on-office-home	CMKD	Accuracy: 89.0
domain-adaptation-on-visda2017	CMKD	Accuracy: 91.8

无监督域自适应：利用视觉-语言预训练

{Wenlve Zhou and Zhiheng Zhou}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters

Command Palette

无监督域自适应：利用视觉-语言预训练

{Wenlve Zhou and Zhiheng Zhou}

摘要

基准测试

用 AI 构建 AI

Hyper Newsletters