
摘要
区域提议机制对于现有的图像目标检测深度学习方法至关重要。尽管在正常情况下它们通常能够实现良好的检测性能,但在极端场景中的召回率却低得不可接受。这主要是因为边界框注释包含大量环境噪声信息,需要进行非极大值抑制(Non-Maximum Suppression, NMS)来选择目标框。因此,在本文中,我们提出了一种无需锚点且无需NMS的目标检测模型,称为弱监督多模态注释分割(Weakly Supervised Multimodal Annotation Segmentation, WSMA-Seg),该模型利用分割模型实现了无NMS的准确和鲁棒的目标检测。在WSMA-Seg中,通过弱监督边界框提出了多模态注释以实现实例感知的分割;我们还开发了一种基于运行数据的后续算法来追踪物体的轮廓。此外,我们提出了一种多尺度池化分割(Multi-Scale Pooling Segmentation, MSP-Seg)作为WSMA-Seg的基础分割模型,以实现更精确的分割并提高WSMA-Seg的检测准确性。多个数据集上的实验结果表明,所提出的WSMA-Seg方法优于当前最先进的检测器。