
摘要
多标签图像识别是一项具有实际应用价值的计算机视觉任务,但该领域的进展往往伴随着复杂的方法、沉重的计算负担以及缺乏直观解释。为了有效捕捉不同类别物体所占据的不同空间区域,我们提出了一种极其简单的模块,命名为类别特定残差注意力(Class-Specific Residual Attention, CSRA)。CSRA通过提出一种简单的空间注意力得分来为每个类别生成类别特定特征,然后将其与类别无关的平均池化特征相结合。CSRA在多标签识别任务上取得了最先进的结果,同时其方法也比其他方法简单得多。此外,仅需4行代码,CSRA就能在多种不同的预训练模型和数据集上实现一致的性能提升,而无需任何额外训练。CSRA不仅易于实现且计算量轻,还具备直观的解释和可视化能力。