针对类别分布不匹配的无监督学习
Pan Du, Wangbo Zhao, Xinai Lu, Nian Liu, Zhikai Li, Chaoyu Gong, Suyun Zhao, Hong Chen, Cuiping Li, Kai Wang, Yang You
发布日期: 5/13/2025

摘要
类别分布不匹配 (CDM) 是指训练数据和目标任务中的类别分布之间的差异。先前的方法通过设计分类器来解决这个问题,这些分类器在训练过程中对已知类别进行分类,同时将未知或新类别归入“其他”类别。然而,这些方法专注于半监督场景,并且严重依赖标记数据,从而限制了它们的适用性和性能。为了解决这个问题,我们提出了针对类别分布不匹配的无监督学习 (UCDM),它从未标记数据中构建正负样本对用于分类器训练。我们的方法随机采样图像,并使用扩散模型来添加或删除语义类别,从而合成不同的训练样本对。此外,我们引入了一种基于置信度的标记机制,该机制迭代地为有价值的现实世界数据分配伪标签,并将其纳入训练过程。在三个数据集上进行的大量实验证明了 UCDM 优于先前的半监督方法。具体来说,在 Tiny-ImageNet 数据集上的不匹配比例为 60% 的情况下,我们的方法无需依赖标记数据,在对已知、未知和新类别进行分类时,比 OpenMatch(每个类别有 40 个标签)分别高出 35.1%、63.7% 和 72.5%。