
摘要
传统的物体检测模型需要大量的训练数据。相比之下,人类仅通过了解物体的语义描述就能识别从未见过的物体。为了模拟这种行为,零样本物体检测旨在仅利用语义信息来识别和定位“未见过”的物体实例。首先,该模型被训练以学习已见物体在视觉域和语义域之间的关系,随后将所获得的知识迁移到完全未见过的物体上。这种设置引发了对视觉和语义概念之间正确对齐的需求,以便仅通过其语义属性来识别未见过的物体。在本文中,我们提出了一种新的损失函数——“极性损失”(Polarity loss),该函数促进了正确的视觉-语义对齐,从而提高了零样本物体检测的效果。一方面,“极性损失”通过在相关概念的“语义词汇表”(Semantic vocabulary)上进行度量学习来改进噪声语义嵌入,以建立视觉域和语义域之间更好的协同作用。另一方面,它显式地最大化正例和负例预测之间的差距,以实现对已见、未见和背景物体更好的区分。我们的方法受到认知科学中具身理论的启发,这些理论认为人类的语义理解基于过去的经验(已见物体)、相关的语言概念(词汇表)和视觉感知(已见/未见物体图像)。我们在MS-COCO和Pascal VOC数据集上进行了广泛的评估,结果显示了相对于现有技术的重大改进。