3ヶ月前

Meteor：大規模言語・視覚モデルの根拠の探索をMambaに基づいて実現する手法

Byung-Kwan Lee Chae Won Kim Beomchan Park Yong Man Ro

要約

大規模な言語・視覚モデル（LLVMs）の急速な発展は、視覚的インストラクションチューニングの進展に支えられている。近年、オープンソースのLLVMは、高品質な視覚的インストラクションチューニングデータセットを収集し、追加の視覚エンコーダーまたは複数のコンピュータビジョンモデルを活用することで、強力な閉鎖型LLVMとの性能差を縮めようとしている。こうした進展は、画像の基本的理解、常識や非対象概念（例：グラフ、図表、記号、標識、数学問題など）に関する現実世界の知識、および複雑な質問を解くための段階的プロセスといった、多様な機能を実現するための多面的な情報の必要性に起因している。こうした多面的な情報を基に、本研究では、多面的な推論過程（rationale）をMambaアーキテクチャで効率的に処理する新規なLLVM「Meteor（Mamba-based traversal of rationales）」を提案する。豊富な情報を含む長大な推論過程を効率的に埋め込むために、線形時間計算量で順次データを処理可能なMambaアーキテクチャを採用している。さらに、推論の「トラバーサル（走査）」という新たな概念を導入し、推論の埋め込みをより効率的に行う。その後、バックボーンとなるマルチモーダル言語モデル（MLM）は、推論情報を活用して回答を生成するように訓練される。これらのプロセスを通じて、Meteorはモデルサイズの拡大や追加の視覚エンコーダー、コンピュータビジョンモデルの使用を一切行わずに、多様な能力を要する複数の評価ベンチマークにおいて、視覚言語性能の顕著な向上を達成した。

コードリポジトリ

byungkwanlee/meteor

公式

pytorch

GitHubで言及

ベンチマーク

ベンチマーク	方法論	指標
visual-question-answering-on-mm-vet	Meteor	GPT-4 score: 57.3 Params: 7B

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette