
摘要
在众多机器学习算法中,一种常见的方法是在大规模无标签数据上进行自监督学习,随后在下游任务上进行微调,以进一步提升模型性能。最近,一种名为“动态评估”(dynamic evaluation)的语言建模新方法通过在推理阶段利用简单可得的真实标签(ground-truth labels)对已训练模型进行进一步微调,显著提升了模型表现。然而,该方法难以直接推广至分类任务,因为在推理阶段真实标签通常不可用。为解决这一问题,我们提出一种新策略:利用自训练机制,并通过模型自身生成的类别平衡预测(即伪标签,pseudo-labels)反向传播损失,结合元学习中的Reptile算法思想,同时引入对预训练权重的归纳偏置(inductive bias),以增强模型的泛化能力。该方法无需修改底层模型架构,即可显著提升标准骨干网络(如BERT、Electra和ResNet-50)在多种任务上的性能,包括SQuAD和NewsQA上的问答任务、SuperGLUE基准任务、Ubuntu Dialog语料库v2.0上的对话响应选择任务,以及MNIST和ImageNet上的图像分类任务。所提出的方法优于以往的各类方法,能够实现任何分类模型在推理阶段的自监督微调,使其更好地适应目标领域;该方法具有高度可移植性,可轻松适配任意模型架构,并在在线学习和迁移学习场景中均表现出色。