11 天前
Shikra:释放多模态LLM的指代对话潜能
Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao

摘要
在人类对话中,个体可以通过语言指示场景中的相关区域,而对话另一方则可根据需要进一步引用特定区域进行回应。这种自然的指代能力在当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)中仍处于缺失状态。为填补这一空白,本文提出了一种名为 Shikra 的新型 MLLM,该模型能够处理以自然语言形式输入和输出的空间坐标信息。其架构由视觉编码器、对齐层和大语言模型(LLM)三部分组成,设计简洁,无需额外词汇表、位置编码器、预/后处理检测模块或外部插件模型。所有输入与输出均采用自然语言形式。指代对话是多种视觉-语言(Vision-Language, VL)任务的超集。Shikra 能够自然地处理与位置相关的任务,如区域识别(REC)和点式问题回答(PointQA),同时也可胜任图像描述生成(Image Captioning)和视觉问答(VQA)等传统VL任务。实验结果表明,Shikra 在多项任务上展现出出色的性能。此外,该模型还支持一系列富有前景的应用场景,例如在思维链(chain-of-thought)中输出被提及物体的空间坐标,以及比较用户所指区域之间的相似性。相关代码、模型及数据集已开源,访问地址为:https://github.com/shikras/shikra。