8 天前
测试时域自适应的视觉提示调优
Yunhe Gao, Xingjian Shi, Yi Zhu, Hao Wang, Zhiqiang Tang, Xiong Zhou, Mu Li, Dimitris N. Metaxas

摘要
在实际部署场景中,由于不可避免的分布偏移(distribution shifts),模型在测试阶段面对未见过的数据时若无法自适应,将导致性能显著下降。为此,本文针对一个实际且具有挑战性的问题——测试时自适应(Test-Time Adaptation, TTA)——展开研究,该问题要求模型在不访问源域数据的前提下,适应目标域数据。我们提出了一种简洁有效的方案,称为数据高效提示调优(Data-efficient Prompt Tuning, DePT),其包含两个核心设计。首先,DePT 将视觉提示(visual prompts)嵌入视觉 Transformer 架构中,并在适应过程中仅对这些由源域初始化的提示进行微调。我们发现,这种参数高效的微调方式能够有效将模型表征适配至目标域,同时避免因过度拟合学习目标中的噪声而导致的过拟合问题。其次,DePT 通过基于记忆库的在线伪标签机制,实现从源域表征到目标域的自举(bootstrapping)。此外,我们设计了一种针对提示的分层自监督正则化策略,并与伪标签优化联合进行,以缓解自训练过程中误差累积的问题。得益于极少量可调参数,DePT 在多个主流适应基准测试(VisDA-C、ImageNet-C 和 DomainNet-126)上均取得了当前最优性能,同时展现出卓越的数据效率:仅使用 1% 或 10% 的数据即可完成适应,性能衰减极小,几乎与使用 100% 数据时相当。此外,DePT 具有良好的可扩展性,可自然推广至在线 TTA 或多源 TTA 等复杂场景。