11 天前

LLaVA-Plus:学习使用工具以构建多模态Agent

Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
LLaVA-Plus:学习使用工具以构建多模态Agent
摘要

LLaVA-Plus 是一种通用型多模态助手,旨在拓展大型多模态模型的能力。它维护一个预训练视觉模型与视觉-语言模型的技能库,并可根据用户输入动态激活相关工具,以完成现实世界中的各类任务。LLaVA-Plus 在多模态指令遵循数据上进行训练,具备使用工具的能力,涵盖视觉理解、内容生成、外部知识检索以及多模态组合等任务。实证结果表明,LLaVA-Plus 在现有能力上优于 LLaVA,并展现出全新的功能特性。其独特之处在于,图像查询在整个用户-人工智能交互过程中始终被直接锚定并主动参与,显著提升了工具使用性能,并开拓了全新的应用场景。

LLaVA-Plus:学习使用工具以构建多模态Agent | 最新论文 | HyperAI超神经