
摘要
多标签图像分类旨在从给定图像中预测一组标签。与仅为每张图像分配单一标签的多类分类不同,该方法适用于更广泛的应用场景。在本研究中,我们重新审视了两种主流的多标签分类方法:基于Transformer的头部结构与基于标签关系信息图的处理分支。尽管目前普遍认为基于Transformer的头部结构在性能上优于基于图的方法,但我们指出,若采用合适的训练策略,基于图的方法可在仅损失极小精度的前提下,显著降低推理阶段的计算资源消耗。在我们的训练策略中,我们摒弃了多标签分类领域广泛采用的Asymmetric Loss(ASL)标准,转而引入其基于度量学习的改进版本。该方法在每个二分类子问题中,利用来自主干网络的$L_2$归一化特征向量,并最大化正样本与负样本归一化表示之间的夹角,从而增强特征间的判别能力。相比在未归一化特征上使用二元交叉熵损失,该策略能够实现更优的分类边界分离效果。基于所提出的损失函数与训练策略,我们在多个广泛使用的多标签分类基准数据集上(包括MS-COCO、PASCAL-VOC、NUS-Wide和Visual Genome 500)取得了单模态方法中的最先进(SOTA)性能。本方法的源代码已作为OpenVINO Training Extensions的一部分开源,项目地址为:https://github.com/openvinotoolkit/deep-object-reid/tree/multilabel