17 天前

基于预训练模型的互信息正则化域泛化

Junbum Cha, Kyungjae Lee, Sungrae Park, Sanghyuk Chun
基于预训练模型的互信息正则化域泛化
摘要

领域泛化(Domain Generalization, DG)旨在仅利用有限的源域数据,训练出一个能够泛化至未见目标域的通用模型。以往的DG方法由于训练域与测试域之间存在显著的域差异,难以仅从源域中学习到域不变的表示。为此,本文提出一种新的DG目标重构方法,引入了基于“理想模型”(oracle model)的互信息约束,其中理想模型是指能够泛化至任意可能域的模型。通过使用预训练模型近似该理想模型,我们推导出一个可计算的变分下界,从而提出一种名为互信息正则化与理想模型(Mutual Information Regularization with Oracle, MIRO)的新方法。大量实验结果表明,MIRO显著提升了模型在分布外数据上的性能表现。此外,缩放实验进一步验证了:预训练模型规模越大,MIRO所带来的性能提升越显著。相关源代码已开源,地址为:https://github.com/kakaobrain/miro。