16 天前

自训练在渐进式领域适应中的应用

Ananya Kumar, Tengyu Ma, Percy Liang
自训练在渐进式领域适应中的应用
摘要

机器学习系统必须能够适应随时间演变的数据分布,这在从传感器网络、自动驾驶汽车感知模块到脑机接口等各种应用场景中均至关重要。本文研究了渐进式领域自适应问题,其目标是在仅获得逐渐向目标领域分布偏移的无标签数据的前提下,对在源域上预训练的初始分类器进行适应性调整。我们首次在直接适应目标域可能导致误差无界的情形下,证明了自训练方法在渐进分布偏移下的非平凡(non-vacuous)误差上界。理论分析揭示了重要的算法启示:即便在数据无限的条件下,正则化与标签锐化仍是必不可少的;同时,研究指出自训练在Wasserstein-infinity距离较小的分布偏移情形下表现尤为出色。利用渐进偏移的结构特性,我们在旋转MNIST数据集和一个真实感更强的Portraits数据集上均实现了更高的分类准确率。