
摘要
半监督学习(Semi-Supervised Learning, SSL)为有效利用未标注数据以提升模型性能提供了一种高效途径。本文展示了两种常见SSL方法——一致性正则化(consistency regularization)与伪标签(pseudo-labeling)——简单组合所展现出的强大能力。我们提出的算法FixMatch首先利用模型对弱增强(weakly-augmented)未标注图像的预测结果生成伪标签;对于某一图像,仅当模型输出具有高置信度时,该伪标签才会被保留。随后,模型在输入同一图像的强增强版本时,被训练以预测对应的伪标签。尽管算法结构简洁,我们实证表明,FixMatch在多个标准半监督学习基准测试中均取得了当前最优的性能表现:在仅使用250个标签的情况下,CIFAR-10数据集上达到94.93%的准确率;而在仅40个标签(即每类仅4个样本)的情形下,准确率仍高达88.61%。由于FixMatch与若干现有SSL方法在结构上具有诸多相似之处,但后者表现较差,因此我们开展了详尽的消融实验,以识别出对FixMatch成功至关重要的关键实验因素。相关代码已公开,访问地址为:https://github.com/google-research/fixmatch。