
摘要
近期,一些开放词汇方法通过采用统一架构来应对通用分割与检测任务。然而,由于不同任务之间的冲突,其性能仍落后于专用任务模型,且受限于对CLIP的利用不足,其开放词汇能力也较为有限。为解决上述挑战,本文提出一种基于通用Transformer的框架,简称OpenSD,该框架采用相同的架构与网络参数,统一处理开放词汇的分割与检测任务。首先,我们引入一种解耦式解码器学习策略,缓解“物体”(thing)与“场景”(stuff)类别之间的语义冲突,使各项任务在统一框架下能够更有效地进行学习。其次,为更充分地利用CLIP实现端到端的分割与检测,我们设计了双分类器机制,分别处理词汇表内(in-vocabulary)与词汇表外(out-of-vocabulary)的类别。同时,通过解耦式提示学习(decoupled prompt learning),进一步训练文本编码器,使其对“物体”与“场景”类别均具备区域感知能力,从而有效过滤重复及低质量的预测结果,这对于端到端的分割与检测至关重要。我们在多个数据集及多种场景下进行了大量实验,结果表明,OpenSD在封闭词汇与开放词汇设置下,均显著优于当前最先进的开放词汇分割与检测方法。代码已开源,地址为:https://github.com/strongwolf/OpenSD