概要

LLaVA-Plusは、大規模なマルチモーダルモデルの機能を拡張する汎用的なマルチモーダルアシスタントである。このモデルは、事前に学習された視覚モデルおよび視覚言語モデルのスキルリポジトリを保持しており、ユーザーの入力に基づいて関連するツールを動的に起動し、現実世界のタスクを実行できる。LLaVA-Plusはマルチモーダルな指示追従データに基づいて学習されており、視覚的理解、生成、外部知識の検索、および複合的タスク処理といったツールの活用能力を獲得している。実証的な結果から、LLaVA-Plusは既存の能力においてLLaVAを上回るとともに、新たな機能を示している。特に特徴的な点は、画像クエリが人間-AI対話の全過程にわたり直接的かつ能動的に根拠づけられることであり、これによりツール使用のパフォーマンスが顕著に向上し、新たな応用シナリオの実現が可能となっている。

ソースPDF