11日前

LLaVA-Plus:マルチモーダルエージェントの構築に向けたツール利用学習

Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li
LLaVA-Plus:マルチモーダルエージェントの構築に向けたツール利用学習
要約

LLaVA-Plusは、大規模なマルチモーダルモデルの機能を拡張する汎用的なマルチモーダルアシスタントである。このモデルは、事前に学習された視覚モデルおよび視覚言語モデルのスキルリポジトリを保持しており、ユーザーの入力に基づいて関連するツールを動的に起動し、現実世界のタスクを実行できる。LLaVA-Plusはマルチモーダルな指示追従データに基づいて学習されており、視覚的理解、生成、外部知識の検索、および複合的タスク処理といったツールの活用能力を獲得している。実証的な結果から、LLaVA-Plusは既存の能力においてLLaVAを上回るとともに、新たな機能を示している。特に特徴的な点は、画像クエリが人間-AI対話の全過程にわたり直接的かつ能動的に根拠づけられることであり、これによりツール使用のパフォーマンスが顕著に向上し、新たな応用シナリオの実現が可能となっている。

LLaVA-Plus:マルチモーダルエージェントの構築に向けたツール利用学習 | 最新論文 | HyperAI超神経