
摘要
本文针对特定目标域上的分类任务进行了研究,其中标记的训练数据仅来自与目标域不同但相关的源域。两个密切相关的方法框架——领域适应(domain adaptation)和领域泛化(domain generalization)关注此类任务,两者之间的唯一区别在于未标记的目标数据的可用性:领域适应可以利用未标记的目标信息,而领域泛化则不能。我们提出了一种快速表示学习算法——散度成分分析(Scatter Component Analysis, SCA),该算法既适用于领域适应也适用于领域泛化。SCA 基于一种简单的几何度量,即散度,该度量在再生核希尔伯特空间中进行操作。SCA 寻找一种表示方法,在最大化类间可分性、最小化域间不匹配以及最大化数据可分性之间进行权衡;每项指标均通过散度来量化。SCA 的优化问题可以简化为广义特征值问题,从而获得快速且精确的解。在基准跨域物体识别数据集上的全面实验验证了 SCA 比几种最先进的算法运行得更快,并且在领域适应和领域泛化中均提供了最先进的分类准确性。我们还展示了在领域适应的情况下,散度可用于建立理论上的泛化界。