7日前

AnyMAL：効率的かつスケーラブルな任意モダリティ拡張型言語モデル

Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar

論文の詳細を見る

要約

本稿では、多様な入力モダリティ信号（テキスト、画像、動画、音声、IMUモーションセンサなど）を統合的に処理し、テキスト応答を生成する統合型モデル「Any-Modality Augmented Language Model（AnyMAL）」を提案する。AnyMALは、最新の大規模言語モデル（LLM）であるLLaMA-2（70B）に代表される強力なテキストベースの推論能力を継承し、事前学習済みのアライナーモジュールを用いて、モダリティ固有の信号を統合的なテキスト空間に変換する。さらに、単なる質疑応答（QA）を越える多様なトピックおよびタスクをカバーするように手動で収集したマルチモーダルインストラクションデータセットを用いてモデルをファインチューニングすることで、マルチモーダルLLMの能力を強化している。本研究では、人間評価と自動評価を含む包括的な実証分析を行い、さまざまなマルチモーダルタスクにおいて最先端の性能を示した。