
摘要
我们提出了一种名为跨视图训练(Cross-View Training, CVT)的简单而有效的深度半监督学习方法。在有标签样本上,模型采用标准的交叉熵损失进行训练;在无标签样本上,模型首先执行推理(作为“教师”)生成软标签(soft targets),随后模型再基于这些软标签进行学习(作为“学生”)。与以往工作不同的是,我们在模型中引入了多个辅助的学生预测层。每个学生层的输入是完整模型的一个子网络,该子网络对输入具有受限的“视图”(例如,仅能观察图像的某一个局部区域)。由于教师模型(即完整模型)能够看到每个样本的更多部分,因此学生模型可以从中学习;与此同时,随着学生模型在数据受限条件下不断学习预测,其也反过来提升了教师模型所使用表示的质量。当与虚拟对抗训练(Virtual Adversarial Training)结合使用时,CVT在半监督CIFAR-10和半监督SVHN任务上均超越了当前的最先进水平。此外,我们将CVT应用于五个自然语言处理任务,利用数亿条无标签语句进行模型训练。在所有任务中,CVT均显著优于仅依赖监督学习的方法,所得到的模型性能达到或超越当前最先进的水平。