2 个月前

ML-Decoder:可扩展且多功能的分类头

Ridnik, Tal ; Sharir, Gilad ; Ben-Cohen, Avi ; Ben-Baruch, Emanuel ; Noy, Asaf
ML-Decoder:可扩展且多功能的分类头
摘要

在本文中,我们介绍了ML-Decoder,一种新的基于注意力机制的分类头。ML-Decoder通过查询来预测类别标签的存在,并且相比全局平均池化,能够更好地利用空间数据。通过对解码器架构的重新设计以及使用一种新颖的分组解码方案,ML-Decoder具有极高的效率,并且可以很好地扩展到数千个类别。与使用更大的骨干网络相比,ML-Decoder在速度和精度之间提供了更好的平衡。此外,ML-Decoder还具有很高的灵活性——它可以作为各种分类头的即插即用替代品,并且在使用词查询时能够推广到未见过的类别。新的查询增强方法进一步提高了其泛化能力。使用ML-Decoder,我们在多个分类任务上取得了最先进的结果:在MS-COCO多标签分类任务中,我们达到了91.4%的mAP;在NUS-WIDE零样本学习任务中,我们达到了31.1%的ZSL mAP;在ImageNet单标签分类任务中,我们使用标准的ResNet50骨干网络达到了80.7%的新最高分,而无需额外的数据或蒸馏技术。公开代码可在以下地址获取:https://github.com/Alibaba-MIIL/ML_Decoder

ML-Decoder:可扩展且多功能的分类头 | 最新论文 | HyperAI超神经