HyperAIHyperAI

Command Palette

Search for a command to run...

LLaVA-Plus:学习使用工具以构建多模态Agent

摘要

LLaVA-Plus 是一种通用型多模态助手,旨在拓展大型多模态模型的能力。它维护一个预训练视觉模型与视觉-语言模型的技能库,并可根据用户输入动态激活相关工具,以完成现实世界中的各类任务。LLaVA-Plus 在多模态指令遵循数据上进行训练,具备使用工具的能力,涵盖视觉理解、内容生成、外部知识检索以及多模态组合等任务。实证结果表明,LLaVA-Plus 在现有能力上优于 LLaVA,并展现出全新的功能特性。其独特之处在于,图像查询在整个用户-人工智能交互过程中始终被直接锚定并主动参与,显著提升了工具使用性能,并开拓了全新的应用场景。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供