6 个月前

摘要

利用弱监督或噪声监督构建高效机器学习模型长期以来是一个重要的研究课题。近年来，随着深度学习模型对大规模数据集需求的不断增长，该问题的重要性进一步凸显。弱监督或噪声监督可能来源于多种渠道，包括非专家标注者、基于启发式规则的自动标注，或用户交互信号等。已有大量研究聚焦于如何利用噪声标签。其中，近期工作通过采用元学习驱动的样本重加权方法取得了显著进展：该方法利用元学习框架为噪声标签分配样本权重。本文在此基础上进一步拓展，将问题重新建模为元学习框架下的标签修正问题。我们将标签修正过程视为一个元过程，并提出一种基于元学习的新框架——MLC（Meta Label Correction），用于处理噪声标签学习任务。具体而言，我们引入一个标签修正网络作为元模型，用于生成对噪声标签的修正结果，而主模型则基于修正后的标签进行训练。两个模型通过求解一个双层优化问题实现联合训练。我们在图像识别与文本分类任务上，针对不同噪声水平和噪声类型进行了大量实验。通过对比重加权与标签修正两种范式，我们发现修正框架能够有效克服重加权方法的部分局限性。实验结果还表明，所提出的MLC方法在多种设置下均显著优于现有方法，实现了显著的性能提升。

源 PDF