2 个月前

无监督选择性标注以提高半监督学习的有效性

Xudong Wang; Long Lian; Stella X. Yu
无监督选择性标注以提高半监督学习的有效性
摘要

在给定一个未标记的数据集和有限的标注预算的情况下,我们研究如何选择性地标记固定数量的实例,以使在这种部分标记的数据集上的半监督学习(SSL)效果最佳。除了传统的SSL方法从已标记数据向其余未标记数据传播标签外,我们还重点关注选择正确的数据进行标注。这一实例选择任务具有挑战性,因为在没有任何已标记数据的情况下,我们无法确定学习的目标是什么。直观上,无论下游任务是什么,待标注的实例必须具有代表性且多样化:前者有助于将标签传播到未标记的数据,而后者则确保整个数据集的覆盖范围。我们通过选择聚类原型来实现这一想法,这些原型要么是在预训练特征空间中选定的,要么是与特征优化同时进行的选择,均无需使用标签。我们的无监督选择性标注方法在给定已标记数据时的一致性能优于最先进的主动学习方法,在标签效率方面提高了8到25倍。例如,在仅使用0.08%(CIFAR-10)和0.2%(ImageNet-1K)的数据进行标注时,该方法分别将FixMatch的准确率提升了10%(14%),这表明在低标注预算下,用于选择哪些数据进行标注的小量计算可以带来显著的收益。我们的工作为实际且高效的SSL设定了新的标准。