2 个月前
OpenDAS:开放词汇域适应的二维和三维分割
Yilmaz, Gonca ; Peng, Songyou ; Pollefeys, Marc ; Engelmann, Francis ; Blum, Hermann

摘要
近期,视觉-语言模型(Vision-Language Models, VLMs)在分割技术方面取得了进展,通过从传统的预定义对象类别的封闭集分割转向开放词汇分割(Open-Vocabulary Segmentation, OVS),使得用户能够在训练过程中未见过的新类别和概念上进行分割。然而,这种灵活性也带来了权衡:完全监督的封闭集方法在基础类别上的表现仍然优于OVS方法,即在那些它们被明确训练过的类别上表现更好。这是由于VLMs缺乏像素对齐的训练掩码(这些模型是在图像-标题对上进行训练的),以及缺乏特定领域的知识,例如自动驾驶。因此,我们提出了开放词汇域适应的任务,旨在在保留VLMs开放词汇性质的同时注入特定领域的知识。通过这种方法,我们在基础类别和新类别上均实现了性能提升。现有的VLM适应方法虽然提高了基础(训练)查询的性能,但在新查询上未能完全保留VLMs的开放集能力。为了解决这一不足,我们将参数高效的提示调优与基于三元组损失的训练策略相结合,该策略使用辅助负向查询。值得注意的是,我们的方法是唯一一种在新类别上持续超越原始VLM的参数高效方法。经过适应后的VLMs可以无缝集成到现有的OVS流水线中,例如,在ADE20K数据集上的开放词汇2D分割中将OVSeg的mIoU提高+6.0%,在ScanNet++ Offices数据集上的开放词汇3D实例分割中将OpenMask3D的AP提高+4.1%,而无需其他更改。项目页面可在https://open-das.github.io/ 获取。