2ヶ月前

LLaVA-NeXT-Interleave: 大規模マルチモーダルモデルにおける複数画像、動画、および3Dの処理

Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, Chunyuan Li
LLaVA-NeXT-Interleave: 大規模マルチモーダルモデルにおける複数画像、動画、および3Dの処理
要約

視覚指示調整は、大規模マルチモーダルモデル(LMM)の能力向上に大きな進展をもたらしました。しかし、既存のオープンソースLMMは主に単一画像タスクに焦点を当てており、複数画像シナリオへの応用はまだ十分に研究されていません。さらに、これまでのLMM研究では異なるシナリオが個別に対処されており、新しい能力が出現してもそれらを跨った一般化が不可能でした。この課題を解決するため、私たちはLLaVA-NeXT-Interleaveを導入します。これは、複数画像、複数フレーム(動画)、複数ビュー(3D)、および複数パッチ(単一画像)のシナリオを同時に扱うことを可能にします。これらの機能を実現するために、インターリーブデータ形式を一般的なテンプレートと捉え、M4-Instructデータセットを作成しました。このデータセットには1,177,600サンプルが含まれおり、4つの主要ドメインで14のタスクと41のデータセットをカバーしています。また、LLaVA-Interleave Benchも整備し、LMMの多画像性能を包括的に評価しています。広範囲な実験を通じて、LLaVA-NeXT-Interleaveは多画像、動画、3Dベンチマークにおいて優れた結果を達成しつつ、単一画像タスクの性能も維持しています。さらに、当モデルは異なる設定やモーダル間でのタスク転送などの新たな能力も示しています。コードはhttps://github.com/LLaVA-VL/LLaVA-NeXT で公開されています。

LLaVA-NeXT-Interleave: 大規模マルチモーダルモデルにおける複数画像、動画、および3Dの処理 | 最新論文 | HyperAI超神経