
摘要
我们介绍了一种名为Groma的多模态大语言模型(Multimodal Large Language Model, MLLM),该模型具备基于地面的细粒度视觉感知能力。除了整体图像理解外,Groma还擅长区域级别的任务,如区域描述和视觉定位。这些能力是通过一种局部化的视觉分词机制实现的,其中图像输入被分解为感兴趣的区域,并随后编码为区域标记。通过将区域标记整合到用户指令和模型响应中,我们无缝地使Groma能够理解用户指定的区域输入,并将其文本输出与图像进行对齐。此外,为了增强Groma的基于地面的聊天能力,我们利用强大的GPT-4V和视觉提示技术精心编制了一个视觉接地指令数据集。与依赖语言模型或外部模块进行定位的MLLM相比,Groma在标准指代和接地基准测试中始终表现出色,突显了将定位嵌入图像分词的优势。项目页面:https://groma-mllm.github.io/。