
摘要
在许多关键的计算机视觉场景中,未标记的数据非常丰富,但标签却很少且难以获取。因此,利用未标记数据来提升监督分类器性能的半监督学习方法在近期文献中受到了广泛关注。一类典型的半监督算法是协同训练(co-training)算法。协同训练算法通过两个不同的模型共同工作,这些模型可以访问数据的不同独立且充分的表示或“视图”,从而做出更好的预测。每个模型都会为未标记的数据点生成伪标签,这些伪标签用于改进另一个模型。我们发现,在通常情况下无法获得独立视图时,可以使用预训练模型以较低成本构建这样的视图。基于构建的视图进行协同训练,其性能优于任何一个单独构建的视图,并且与最近的半监督学习方法相当。我们提出了元协同训练(Meta Co-Training),这是一种新型的半监督学习算法,相比传统的协同训练具有两大优势:(i) 当不同视图的信息含量存在较大差异时,学习过程更加稳健;(ii) 每次迭代时不需要从头开始重新训练。我们的方法在ImageNet-10%数据集上实现了新的最先进性能,相较于先前的工作减少了约4.7%的错误率。此外,我们的方法在其他几个细粒度图像分类数据集上也超越了之前的半监督学习成果。