2 个月前

Kosmos-2:将多模态大语言模型与现实世界结合

Zhiliang Peng; Wenhui Wang; Li Dong; Yaru Hao; Shaohan Huang; Shuming Ma; Furu Wei
Kosmos-2:将多模态大语言模型与现实世界结合
摘要

我们介绍了Kosmos-2,一种多模态大语言模型(Multimodal Large Language Model, MLLM),该模型具备新的能力,可以感知对象描述(例如,边界框)并将文本与视觉世界对齐。具体而言,我们将指代表达表示为Markdown中的链接,即``文本片段'',其中对象描述是由位置标记组成的序列。结合多模态语料库,我们构建了大规模的图像-文本对数据集(称为GrIT)来训练该模型。除了现有的多模态大语言模型的能力(如感知一般模态、遵循指令和进行上下文学习)之外,Kosmos-2还将对齐能力集成到下游应用中。我们在多种任务上评估了Kosmos-2,包括(i)多模态对齐任务,如指代表达理解及短语对齐;(ii)多模态指代任务,如指代表达生成;(iii)感知-语言任务;以及(iv)语言理解和生成任务。这项工作为具身智能的发展奠定了基础,并揭示了语言、多模态感知、行动和世界建模的大融合趋势,这是实现通用人工智能的关键步骤之一。代码和预训练模型可在https://aka.ms/kosmos-2获取。

Kosmos-2:将多模态大语言模型与现实世界结合 | 最新论文 | HyperAI超神经