2 个月前

多任务视觉定位与粗细一致性约束

Dai, Ming ; Li, Jian ; Zhuang, Jiedong ; Zhang, Xian ; Yang, Wankou
多任务视觉定位与粗细一致性约束
摘要

多任务视觉定位涉及基于文本表达在图像中同时执行目标检测和分割。大多数先进的方法主要集中在基于变压器的多模态融合上,旨在提取鲁棒的多模态表示。然而,指代表达理解(REC)和指代图像分割(RIS)之间的模糊性容易导致错误,从而引起多任务预测结果的不一致。此外,多模态理解不足会直接导致对目标的偏见感知。为了解决这些挑战,我们提出了一种从粗到精的一致性约束视觉定位架构($\text{C}^3\text{VG}$),该架构在一个两阶段框架内集成了隐式和显式建模方法。首先,查询解码器和像素解码器用于生成初步的目标检测和分割输出,这一过程被称为粗略语义感知(RSP)阶段。随后,通过提出的掩码引导交互模块(MIM)和一种新的显式双向一致性约束损失来细化这些粗略预测,以确保跨任务的一致表示,这被称为精细化一致性交互(RCI)阶段。此外,为了应对多模态理解不足的挑战,我们利用了基于视觉-语言融合表示的预训练模型。在RefCOCO、RefCOCO+和RefCOCOg数据集上的实证评估表明了$\text{C}^3\text{VG}$的有效性和合理性,其性能显著优于现有的最先进的REC和RIS方法。代码和模型将在\url{https://github.com/Dmmm1997/C3VG}提供。