8 个月前

统一多模态

自然语言处理

Zhiliang Peng, * Wenhui Wang, * Li Dong, * Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei†

摘要

我们介绍了Kosmos-2，一种多模态大语言模型（Multimodal Large Language Model, MLLM），该模型具备新的能力，可以感知对象描述（例如，边界框）并将文本与视觉世界对齐。具体而言，我们将指代表达表示为Markdown中的链接，即``文本片段''，其中对象描述是由位置标记组成的序列。结合多模态语料库，我们构建了大规模的图像-文本对数据集（称为GrIT）来训练该模型。除了现有的多模态大语言模型的能力（如感知一般模态、遵循指令和进行上下文学习）之外，Kosmos-2还将对齐能力集成到下游应用中。我们在多种任务上评估了Kosmos-2，包括（i）多模态对齐任务，如指代表达理解及短语对齐；（ii）多模态指代任务，如指代表达生成；（iii）感知-语言任务；以及（iv）语言理解和生成任务。这项工作为具身智能的发展奠定了基础，并揭示了语言、多模态感知、行动和世界建模的大融合趋势，这是实现通用人工智能的关键步骤之一。代码和预训练模型可在https://aka.ms/kosmos-2获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

统一多模态

自然语言处理

Zhiliang Peng, * Wenhui Wang, * Li Dong, * Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei†

摘要

我们介绍了Kosmos-2，一种多模态大语言模型（Multimodal Large Language Model, MLLM），该模型具备新的能力，可以感知对象描述（例如，边界框）并将文本与视觉世界对齐。具体而言，我们将指代表达表示为Markdown中的链接，即``文本片段''，其中对象描述是由位置标记组成的序列。结合多模态语料库，我们构建了大规模的图像-文本对数据集（称为GrIT）来训练该模型。除了现有的多模态大语言模型的能力（如感知一般模态、遵循指令和进行上下文学习）之外，Kosmos-2还将对齐能力集成到下游应用中。我们在多种任务上评估了Kosmos-2，包括（i）多模态对齐任务，如指代表达理解及短语对齐；（ii）多模态指代任务，如指代表达生成；（iii）感知-语言任务；以及（iv）语言理解和生成任务。这项工作为具身智能的发展奠定了基础，并揭示了语言、多模态感知、行动和世界建模的大融合趋势，这是实现通用人工智能的关键步骤之一。代码和预训练模型可在https://aka.ms/kosmos-2获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供