2 个月前
基于丰富语义和粗略位置的长尾目标检测学习
Lingchen Meng; Xiyang Dai; Jianwei Yang; Dongdong Chen; Yinpeng Chen; Mengchen Liu; Yi-Ling Chen; Zuxuan Wu; Lu Yuan; Yu-Gang Jiang

摘要
长尾目标检测(LTOD)旨在解决现实世界数据集中极端的数据不平衡问题,其中许多尾部类别的实例非常稀少。一种常见的策略是利用带有图像级标签的额外数据,但由于以下两个原因,这种方法的效果有限:(1) 语义模糊——图像级标签仅捕捉到图像中的显著部分,忽略了其余丰富的语义信息;(2) 位置敏感性——标签高度依赖于原始图像的位置和裁剪区域,这些可能在随机裁剪等数据变换后发生变化。为了解决这些问题,我们提出了一种简单但有效的方法——RichSem,该方法能够在没有精确边界框的情况下从粗略位置学习丰富的语义信息。RichSem 利用了图像中的丰富语义,并将其作为训练检测器的附加软监督。具体而言,我们在检测器中添加了一个语义分支来学习这些软语义,并增强长尾目标检测的特征表示。该语义分支仅用于训练阶段,在推理时会被移除。RichSem 在不同骨干网络和检测器下均能实现对 LVIS 数据集整体类别和罕见类别的持续改进。我们的方法无需复杂的训练和测试流程即可达到最先进的性能。此外,通过额外的实验,我们还展示了该方法在其他长尾数据集上的有效性。代码已发布在 \url{https://github.com/MengLcool/RichSem}。