
摘要
可提示分割通常需要针对每个特定实例的手动提示来指导所需对象的分割。为了减少这种需求,引入了任务通用可提示分割,该方法使用单一的任务通用提示来分割同一任务中不同对象的各种图像。当前的方法利用多模态大语言模型(MLLMs)从任务通用提示中推理出详细的实例特定提示,以提高分割精度。这种分割的有效性在很大程度上取决于这些派生提示的准确性。然而,MLLMs在推理过程中经常出现幻觉现象,导致提示不准确。尽管现有方法主要集中在消除幻觉以改进模型,我们认为如果正确利用,MLLM幻觉可以揭示有价值的情境信息,因为它们代表了超出单个图像范围的大规模预训练知识。在本文中,我们利用幻觉从图像中挖掘任务相关的信息,并验证其准确性以增强生成提示的精确度。具体而言,我们提出了一种迭代的Prompt-Mask循环生成框架(ProMaC),包括一个提示生成器和一个掩码生成器。提示生成器采用多尺度链式思维提示方法,最初通过探索幻觉来提取测试图像中的扩展情境知识。然后将这些幻觉减少,形成精确的实例特定提示,指导掩码生成器通过掩码语义对齐产生与任务语义一致的掩码。生成的掩码迭代地促使提示生成器更加关注任务相关的图像区域并减少无关的幻觉,从而共同提升提示和掩码的质量。我们在5个基准数据集上的实验结果证明了ProMaC的有效性。代码见:https://lwpyh.github.io/ProMaC/。