
摘要
在本文中,我们探讨了一种高度通用的图像识别场景,即给定一组已标记和未标记的图像,任务是对未标记集合中的所有图像进行分类。这里的未标记图像可能来自已知类别或新类别。现有的识别方法无法应对这种场景,因为它们做出了若干限制性假设,例如未标记实例仅来自已知或未知类别,并且未知类别的数量事先已知。我们针对这一更为开放的场景提出了“广义类别发现”(Generalized Category Discovery),并挑战了这些假设。首先,我们通过采用最新算法并将其适应于本任务来建立强大的基线模型。接下来,我们提出使用带有对比表示学习的视觉变换器来处理这一开放世界场景。然后,我们引入了一种简单而有效的半监督$k$-均值方法,自动将未标记数据聚类为已见和未见类别,显著优于基线模型。最后,我们还提出了一种新的方法来估计未标记数据中的类别数量。我们在通用对象分类和细粒度数据集上对所提出的方法进行了全面评估,并利用了最近发布的语义偏移基准套件。项目页面位于 https://www.robots.ox.ac.uk/~vgg/research/gcd