2 个月前

定位然后分割:一种强大的图像指代分割流程

Jing, Ya ; Kong, Tao ; Wang, Wei ; Wang, Liang ; Li, Lei ; Tan, Tieniu
定位然后分割:一种强大的图像指代分割流程
摘要

指代图像分割旨在根据自然语言表达来分割所指对象。以往的方法通常专注于设计一种隐式且递归的特征交互机制,以融合视觉-语言特征并直接生成最终的分割掩码,而没有显式建模指代实例的定位信息。为了解决这些问题,我们从另一个角度看待这一任务,将其解耦为“先定位再分割”(Locate-Then-Segment, LTS)方案。给定一个语言表达,人们通常首先关注相应的目标图像区域,然后基于上下文生成关于该对象的精细分割掩码。LTS首先提取并融合视觉和文本特征,获得跨模态表示,然后在视觉-文本特征上应用跨模态交互,利用位置先验信息定位所指对象,最后通过轻量级分割网络生成分割结果。我们的LTS方法虽然简单但效果出人意料地好。在三个流行的基准数据集上,LTS大幅超越了所有先前的最先进方法(例如,在RefCOCO+上提高了3.2%,在RefCOCOg上提高了3.4%)。此外,我们的模型由于显式地定位了对象而更具可解释性,这一点也通过可视化实验得到了验证。我们认为这一框架有望成为指代图像分割的强大基线。

定位然后分割:一种强大的图像指代分割流程 | 最新论文 | HyperAI超神经