13 天前
Query2Label:一种简单的基于Transformer的多标签分类方法
Shilong Liu, Lei Zhang, Xiao Yang, Hang Su, Jun Zhu

摘要
本文提出了一种简单而高效的方法,用于解决多标签分类问题。所提出的方法利用Transformer解码器来查询某一类别标签的存在性。采用Transformer的核心动机在于,能够自适应地提取不同标签对应的局部判别性特征,这一特性在单张图像中存在多个对象的情况下尤为重要。Transformer解码器中内嵌的交叉注意力模块,为将标签嵌入作为查询,从视觉主干网络生成的特征图中探测并聚合与类别相关的特征,从而支持后续的二分类任务,提供了一种高效途径。与以往方法相比,该新框架结构简洁,仅使用标准的Transformer和视觉主干网络,同时具备卓越的性能,在包括MS-COCO、PASCAL VOC、NUS-WIDE和Visual Genome在内的五个多标签分类数据集上,均持续优于此前所有方法。特别地,我们在MS-COCO数据集上取得了91.3%的mAP(平均精度均值)成绩。我们期望该方法紧凑的结构、简单的实现方式以及优异的性能,能够成为多标签分类任务及未来研究的强有力基线。代码将于近期在https://github.com/SlongLiu/query2labels 公开。