
摘要
在计算机视觉与机器学习研究领域,利用极少标注数据进行学习一直是一个长期存在的挑战。本文提出了一种新的半监督学习框架——SimMatch,该框架同时考虑语义相似性与实例相似性。在SimMatch中,一致性正则化被应用于语义层面和实例层面。对于同一实例的不同增强视图,模型被鼓励产生相同的类别预测,并保持与其他实例之间相似性关系的一致性。随后,我们引入了一个标注记忆缓冲区(labeled memory buffer),以充分挖掘实例层面的真实标签信息,从而弥合语义相似性与实例相似性之间的差距。最后,我们提出了“展开”(unfolding)与“聚合”(aggregation)操作,使得这两种相似性能够相互之间进行同构变换。通过这一机制,语义伪标签与实例伪标签可相互传播,从而生成更高质量、更可靠的匹配目标。大量实验结果表明,SimMatch在多个基准数据集及不同设置下均显著提升了半监督学习任务的性能。尤为突出的是,在ImageNet数据集上,使用1%和10%的标注样本进行训练时,SimMatch分别达到了67.2%和74.4%的Top-1准确率(训练周期为400轮),显著优于基线方法,并超越了以往的半监督学习框架。代码与预训练模型已开源,可访问 https://github.com/KyleZheng1997/simmatch。