8 个月前

摘要

尽管感知系统在近年来取得了显著进展，但在执行视觉识别任务之前，它们仍然依赖于明确的人类指令或预定义的类别来识别目标对象。这些系统无法主动推理并理解用户的隐含意图。在本研究中，我们提出了一种新的分割任务——推理分割。该任务旨在根据复杂且隐含的查询文本输出分割掩码。此外，我们建立了一个包含超过一千个图像-指令-掩码数据样本的基准测试集，用于评估复杂的推理能力和世界知识。最后，我们介绍了LISA：大型语言指导分割助手，它继承了多模态大语言模型（LLMs）的语言生成能力，同时具备生成分割掩码的能力。我们通过添加一个标记扩展了原始词汇表，并提出了嵌入作为掩码的方法（embedding-as-mask paradigm），以解锁分割功能。值得注意的是，LISA能够处理涉及复杂推理和世界知识的情况。此外，当仅在无推理的数据集上进行训练时，LISA展示了强大的零样本能力。进一步地，仅使用239个推理分割数据样本对模型进行微调即可实现性能提升。定量和定性实验均表明我们的方法有效地为多模态大语言模型解锁了新的推理分割能力。代码、模型和数据可在https://github.com/dvlab-research/LISA获取。

源 PDF