17 天前
带有标签模糊性的图像分类多标签迭代学习
Sai Rajeswar, Pau Rodriguez, Soumye Singhal, David Vazquez, Aaron Courville

摘要
大规模预训练模型的迁移学习已成为众多计算机视觉任务中的关键技术。近期研究表明,ImageNet等数据集存在弱标注问题:当图像中包含多个物体类别时,仅被赋予单一标签,这种标注方式引入了语义模糊性,导致模型倾向于单一预测,从而抑制了在数据中频繁共现的类别。受语言演化研究的启发,我们提出了一种多标签迭代学习(Multi-Label Iterated Learning, MILe)方法,通过迭代学习框架,从单标签中引入多标签学习的归纳偏置。MILe是一种简洁而高效的方法,其核心思想是通过教师-学生网络在多代传播过程中,利用学习瓶颈机制,逐步构建图像的多标签描述。实验结果表明,该方法在ImageNet上的准确率以及ReaL F1分数方面均展现出系统性提升,说明MILe在处理标签模糊性方面优于标准训练流程,即使在从自监督预训练权重进行微调的情况下依然有效。此外,MILe在降低标签噪声方面表现突出,在真实世界大规模噪声数据集(如WebVision)上取得了当前最优性能。同时,MILe在类别增量学习场景(如IIRC)中亦能提升模型表现,并对分布偏移具有较强的鲁棒性。代码已开源:https://github.com/rajeswar18/MILe