Command Palette
Search for a command to run...
Byung-Kwan Lee Chae Won Kim Beomchan Park Yong Man Ro

要約
大規模な言語・視覚モデル(LLVMs)の急速な発展は、視覚的インストラクションチューニングの進展に支えられている。近年、オープンソースのLLVMは、高品質な視覚的インストラクションチューニングデータセットを収集し、追加の視覚エンコーダーまたは複数のコンピュータビジョンモデルを活用することで、強力な閉鎖型LLVMとの性能差を縮めようとしている。こうした進展は、画像の基本的理解、常識や非対象概念(例:グラフ、図表、記号、標識、数学問題など)に関する現実世界の知識、および複雑な質問を解くための段階的プロセスといった、多様な機能を実現するための多面的な情報の必要性に起因している。こうした多面的な情報を基に、本研究では、多面的な推論過程(rationale)をMambaアーキテクチャで効率的に処理する新規なLLVM「Meteor(Mamba-based traversal of rationales)」を提案する。豊富な情報を含む長大な推論過程を効率的に埋め込むために、線形時間計算量で順次データを処理可能なMambaアーキテクチャを採用している。さらに、推論の「トラバーサル(走査)」という新たな概念を導入し、推論の埋め込みをより効率的に行う。その後、バックボーンとなるマルチモーダル言語モデル(MLM)は、推論情報を活用して回答を生成するように訓練される。これらのプロセスを通じて、Meteorはモデルサイズの拡大や追加の視覚エンコーダー、コンピュータビジョンモデルの使用を一切行わずに、多様な能力を要する複数の評価ベンチマークにおいて、視覚言語性能の顕著な向上を達成した。
コードリポジトリ
byungkwanlee/meteor
公式
pytorch
GitHubで言及
ベンチマーク
| ベンチマーク | 方法論 | 指標 |
|---|---|---|
| visual-question-answering-on-mm-vet | Meteor | GPT-4 score: 57.3 Params: 7B |