
摘要
在计算机视觉中,多标签识别是一项具有许多实际应用的重要任务,但对先前未见过的标签进行分类仍然是一个重大挑战。本文提出了一种新颖的算法——对齐双模态分类器(Aligned Dual moDality ClaSsifier, ADDS),该算法包括一个视觉特征与文本特征之间进行对齐的双模态解码器(Dual-Modal decoder, DM-decoder),用于开放词汇表多标签分类任务。随后,我们设计了一种简单而有效的方法——金字塔前向传播(Pyramid-Forwarding),以提高高分辨率输入的性能。此外,选择性语言监督被应用于进一步提升模型性能。我们在多个标准基准数据集(NUS-WIDE、ImageNet-1k、ImageNet-21k 和 MS-COCO)上进行了广泛的实验,结果表明我们的方法显著优于以往的方法,并在开放词汇表多标签分类、传统多标签分类以及一种极端情况——单标签到多标签分类中提供了最先进的性能。在这种极端情况下,训练于单标签数据集(如 ImageNet-1k 和 ImageNet-21k)的模型在多标签数据集(如 MS-COCO 和 NUS-WIDE)上进行测试。