
摘要
PSALM 是大型多模态模型(LMM)的一个强大扩展,旨在应对分割任务的挑战。为了克服 LMM 仅限于文本输出的局限性,PSALM 引入了一个掩码解码器和一个精心设计的输入模式,以处理各种分割任务。该输入模式包括图像、任务指令、条件提示和掩码标记,这些元素使模型能够有效地生成和分类分割掩码。PSALM 的灵活设计支持在多个数据集和任务上的联合训练,从而提高了性能和任务泛化能力。PSALM 在多个基准测试中取得了优异的结果,例如 RefCOCO/RefCOCO+/RefCOCOg、COCO 全景分割和 COCO-Interactive,并且在未见过的任务上展示了零样本能力,如开放词汇分割、广义指代表达分割和视频对象分割,这标志着计算机视觉领域向 GPT 时刻迈出了重要一步。通过广泛的实验,PSALM 展现了其在图像分割领域的潜在变革能力,利用了 LMM 在自然语言处理中表现出的强大视觉理解能力。代码和模型可在 https://github.com/zamling/PSALM 获取。