
摘要
伪标签(pseudo-labels)是指由在有标签源数据上训练的分类器对无标签目标数据所作出的高置信度预测。它们广泛应用于模型适应无标签数据的场景中,例如在半监督学习设置下。我们的核心洞察是:即使在源数据与目标数据均保持平衡的情况下,由于数据本身的内在相似性,伪标签本身天然存在类别不平衡问题。若我们能够针对这一此前未被充分认识的、由伪标签引发的不平衡分类问题进行处理,而非依赖真实标签进行训练,便有望消除因伪标签导致的模型对虚假多数类的偏差。为此,我们提出了一种新颖且高效的去偏学习方法,该方法基于反事实推理(counterfactual reasoning)与自适应边界(adaptive margins)机制:前者用于消除分类器输出响应的偏差,后者则根据伪标签的不平衡程度,动态调整各类别的分类边界。通过大量实验验证,我们所提出的简单去偏学习方法在ImageNet-1K数据集上显著超越现有最先进水平:在仅使用0.2%标注数据的半监督学习场景下,准确率提升达26%;在零样本学习(zero-shot learning)任务中,准确率提升达9%。相关代码已公开,地址为:https://github.com/frank-xwang/debiased-pseudo-labeling。