2 个月前

利用视觉基础模型实现高性能、无需训练的开放词汇分割

Yuheng Shi; Minjing Dong; Chang Xu
利用视觉基础模型实现高性能、无需训练的开放词汇分割
摘要

尽管对比语言-图像预训练(CLIP)在开放词汇预测方面取得了进展,但其在语义分割任务上的表现仍不尽如人意。这一不足主要源于其空间不变的语义特征和受限的分辨率。虽然先前的改进通过修改CLIP图像编码器中的自注意力机制解决了空间不变性问题,但分辨率受限的问题尚未得到充分研究。不同于以往先分割再拼接的方法,这些方法通过滑动窗口对子图像进行分割并将结果拼接,我们提出了一种先拼接再分割的新范式,该范式引入了Segment-Anything模型(SAM),以解决分辨率问题。由于SAM在从高分辨率图像中提取细粒度语义关联方面表现出色,因此我们具体介绍了Trident框架,这是一种无需训练的方法,首先将由CLIP和DINO从子图像中提取的特征进行拼接,然后利用SAM的编码器生成全局聚合的相关矩阵,从而扩展感受野以实现有效的分割。此外,我们还提出了一种针对CLIP粗略分割输出的细化策略,即将这些输出转换为SAM的提示信息,进一步提升分割性能。Trident在八个基准测试上相比当前最先进的方法显著提高了平均交并比(mIoU),从44.4提升至48.6。代码可在https://github.com/YuHengsss/Trident 获取。