
摘要
本文通过利用CLIP的广义上下文先验,对词汇内嵌入空间与领域偏差嵌入空间进行校准,研究开放词汇分割(Open-Vocabulary Segmentation, OVS)问题。作为开放词汇理解的核心,视觉内容与无限文本语义之间的对齐已成为该领域的瓶颈。为应对这一挑战,近期研究尝试将CLIP作为额外分类器,并融合模型预测结果与CLIP的分类输出。尽管取得了显著进展,但在相关场景下,OVS方法的性能仍远不及监督方法。我们认为,这一差距主要源于词汇内嵌入的局限性以及CLIP预测中存在的领域偏差。为此,本文提出一种语义辅助校准网络(Semantic-assisted CAlibration Network, SCAN)。在SCAN中,我们引入CLIP的广义语义先验信息以增强候选区域嵌入,从而避免模型在已知类别上发生特征坍缩;同时,采用上下文偏移策略,缓解全局上下文缺失及背景噪声不自然的问题。上述设计使SCAN在所有主流开放词汇分割基准上均取得了当前最优性能。此外,本文还关注现有评估体系忽视类别间语义重复的问题,提出一种新的评估指标——语义引导交并比(Semantic-Guided IoU, SG-IoU)。