17 天前

Meta-DMoE:通过专家混合的元蒸馏适应领域偏移

Tao Zhong, Zhixiang Chi, Li Gu, Yang Wang, Yuanhao Yu, Jin Tang
Meta-DMoE:通过专家混合的元蒸馏适应领域偏移
摘要

本文针对领域偏移(domain shift)问题提出了一种新的解决方案。现有大多数方法通常使用单一模型在多个源域上进行训练,并将该训练好的模型直接应用于所有未见的目标域。然而,这种策略存在明显局限:每个目标域均具有其独特特性,而单一模型难以充分适应这些差异。此外,期望单个模型从多个源域中学习广泛的知识,在逻辑上也显得不切实际,因为模型更容易偏向于学习域不变特征,从而导致负面的知识迁移(negative knowledge transfer)。为此,本文提出一种新型的无监督测试时自适应(unsupervised test-time adaptation)框架,将该过程建模为知识蒸馏(knowledge distillation)任务,以有效应对领域偏移问题。具体而言,我们引入多专家混合(Mixture-of-Experts, MoE)作为教师模型,其中每个专家分别在不同的源域上独立训练,以最大化其在特定域上的专长能力。当面对一个测试阶段的目标域时,我们从该目标域中采样少量无标签数据,用于向MoE教师模型查询知识。由于源域与目标域之间存在一定的相关性,我们进一步设计了一个基于Transformer的聚合器(aggregator),通过分析各源域之间的相互关联,融合并整合来自不同专家的知识。聚合后的输出被作为监督信号,用于引导学生预测网络向目标域进行自适应调整。为进一步提升性能,本文还引入元学习(meta-learning)机制,促使聚合器能够有效提炼正向知识,同时使学生网络实现快速适应。大量实验结果表明,所提出的方法在多个基准数据集上均显著优于当前最先进方法,并验证了各个组件的有效性。代码已开源,地址为:https://github.com/n3il666/Meta-DMoE。