11 天前
ReMixMatch:基于分布对齐与增强锚定的半监督学习
David Berthelot, Nicholas Carlini, Ekin D. Cubuk, Alex Kurakin, Kihyuk Sohn, Han Zhang, Colin Raffel

摘要
我们通过对近期提出的半监督学习算法“MixMatch”进行改进,引入了两种新技术:分布对齐(distribution alignment)和增强锚定(augmentation anchoring)。分布对齐旨在使模型在未标记数据上的预测边际分布尽可能接近真实标签的边际分布。增强锚定则将同一输入的多个强增强版本输入模型,并促使每个输出结果与该输入的弱增强版本的预测结果保持接近。为生成强增强数据,我们提出了一种AutoAugment的变体,在模型训练过程中同时学习增强策略。我们提出的新型算法称为ReMixMatch,在数据效率方面显著优于以往方法,达到相同准确率所需的数据量仅为先前方法的1/5至1/16。例如,在仅使用250个标注样本的CIFAR-10数据集上,ReMixMatch达到了93.73%的准确率(而MixMatch在使用4,000个标注样本时仅达到93.58%的准确率),且在每类仅4个标注样本的情况下,中位准确率也达到了84.92%。相关代码与数据已开源,地址为:https://github.com/google-research/remixmatch。