
摘要
领域泛化(Domain Generalization)旨在从一组异质的训练源中学习一个分类器,使其能够泛化到来自类似但未知目标域的数据上,该技术在大规模学习和个性化推理等领域具有广泛应用。在许多实际场景中,由于隐私限制,无法获取训练样本的领域标签,仅能获得训练点的聚合集合。现有利用领域标签以构建领域不变特征表示的方法在此类场景下不再适用,因此亟需发展无需领域标签的替代性方法来学习具备泛化能力的分类器。本文提出了一种面向该问题的领域自适应方法,该方法包含两个步骤:(a)在精心选择的特征空间中对训练数据进行聚类,以生成伪领域(pseudo-domains);(b)利用这些伪领域信息,训练一个领域自适应分类器,该分类器在进行预测时同时利用输入样本及其所属伪领域的信息。所提方法在多个领域泛化基准测试中取得了当前最优的性能,且完全无需使用任何真实领域标签。此外,本文还首次提供了基于聚类信息的领域泛化问题的新型理论保障。该方法具有良好的可扩展性,适用于基于集成的学习框架,并在大规模基准数据集上仍能带来显著的性能提升。相关代码已开源,地址为:https://github.com/xavierohan/AdaClust_DomainBed。