6 个月前

计算机视觉

Shilong Liu Lei Zhang Xiao Yang Hang Su Jun Zhu

摘要

本文提出了一种简单而高效的方法，用于解决多标签分类问题。所提出的方法利用Transformer解码器来查询某一类别标签的存在性。采用Transformer的核心动机在于，能够自适应地提取不同标签对应的局部判别性特征，这一特性在单张图像中存在多个对象的情况下尤为重要。Transformer解码器中内嵌的交叉注意力模块，为将标签嵌入作为查询，从视觉主干网络生成的特征图中探测并聚合与类别相关的特征，从而支持后续的二分类任务，提供了一种高效途径。与以往方法相比，该新框架结构简洁，仅使用标准的Transformer和视觉主干网络，同时具备卓越的性能，在包括MS-COCO、PASCAL VOC、NUS-WIDE和Visual Genome在内的五个多标签分类数据集上，均持续优于此前所有方法。特别地，我们在MS-COCO数据集上取得了91.3%的mAP（平均精度均值）成绩。我们期望该方法紧凑的结构、简单的实现方式以及优异的性能，能够成为多标签分类任务及未来研究的强有力基线。代码将于近期在https://github.com/SlongLiu/query2labels 公开。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Shilong Liu Lei Zhang Xiao Yang Hang Su Jun Zhu

摘要

本文提出了一种简单而高效的方法，用于解决多标签分类问题。所提出的方法利用Transformer解码器来查询某一类别标签的存在性。采用Transformer的核心动机在于，能够自适应地提取不同标签对应的局部判别性特征，这一特性在单张图像中存在多个对象的情况下尤为重要。Transformer解码器中内嵌的交叉注意力模块，为将标签嵌入作为查询，从视觉主干网络生成的特征图中探测并聚合与类别相关的特征，从而支持后续的二分类任务，提供了一种高效途径。与以往方法相比，该新框架结构简洁，仅使用标准的Transformer和视觉主干网络，同时具备卓越的性能，在包括MS-COCO、PASCAL VOC、NUS-WIDE和Visual Genome在内的五个多标签分类数据集上，均持续优于此前所有方法。特别地，我们在MS-COCO数据集上取得了91.3%的mAP（平均精度均值）成绩。我们期望该方法紧凑的结构、简单的实现方式以及优异的性能，能够成为多标签分类任务及未来研究的强有力基线。代码将于近期在https://github.com/SlongLiu/query2labels 公开。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供