7日前

AnyMAL:効率的かつスケーラブルな任意モダリティ拡張型言語モデル

Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
AnyMAL:効率的かつスケーラブルな任意モダリティ拡張型言語モデル
要約

本稿では、多様な入力モダリティ信号(テキスト、画像、動画、音声、IMUモーションセンサなど)を統合的に処理し、テキスト応答を生成する統合型モデル「Any-Modality Augmented Language Model(AnyMAL)」を提案する。AnyMALは、最新の大規模言語モデル(LLM)であるLLaMA-2(70B)に代表される強力なテキストベースの推論能力を継承し、事前学習済みのアライナーモジュールを用いて、モダリティ固有の信号を統合的なテキスト空間に変換する。さらに、単なる質疑応答(QA)を越える多様なトピックおよびタスクをカバーするように手動で収集したマルチモーダルインストラクションデータセットを用いてモデルをファインチューニングすることで、マルチモーダルLLMの能力を強化している。本研究では、人間評価と自動評価を含む包括的な実証分析を行い、さまざまなマルチモーダルタスクにおいて最先端の性能を示した。

AnyMAL:効率的かつスケーラブルな任意モダリティ拡張型言語モデル | 最新論文 | HyperAI超神経