2 个月前

SequenceMatch:重新审视半监督学习中弱增强-强增强的设计

Khanh-Binh Nguyen
SequenceMatch:重新审视半监督学习中弱增强-强增强的设计
摘要

半监督学习(SSL)近年来因其能够利用大量未标记数据训练模型而受到广泛关注。然而,许多半监督学习方法面临的一个问题是确认偏差,即当模型对小规模的标记训练数据集过度拟合时,会产生过于自信且错误的预测。为了解决这一问题,我们提出了一种高效的半监督学习方法——SequenceMatch,该方法利用了多种数据增强技术。SequenceMatch 的关键在于引入了针对未标记数据的中等强度增强。通过利用不同的增强技术和每对增强样本之间的一致性约束,SequenceMatch 有助于减少模型在弱增强和强增强样本上的预测分布之间的差异。此外,SequenceMatch 为高置信度和低置信度预测定义了两种不同的一致性约束。因此,与 ReMixMatch 相比,SequenceMatch 更加数据高效;同时,在时间效率上也优于 ReMixMatch(提高4倍)和 CoMatch(提高2倍),并且具有更高的准确性。尽管其方法简单,但 SequenceMatch 在标准基准测试中始终优于先前的方法,例如在 CIFAR-10/100、SVHN 和 STL-10 数据集上的表现。在大规模数据集如 ImageNet 上,SequenceMatch 也大幅超越了先前的最先进方法,其错误率为38.46%。代码可在 https://github.com/beandkay/SequenceMatch 获取。

SequenceMatch:重新审视半监督学习中弱增强-强增强的设计 | 最新论文 | HyperAI超神经