Command Palette
Search for a command to run...
AnyMAL:効率的かつスケーラブルな任意モダリティ拡張型言語モデル
AnyMAL:効率的かつスケーラブルな任意モダリティ拡張型言語モデル
概要
本稿では、多様な入力モダリティ信号(テキスト、画像、動画、音声、IMUモーションセンサなど)を統合的に処理し、テキスト応答を生成する統合型モデル「Any-Modality Augmented Language Model(AnyMAL)」を提案する。AnyMALは、最新の大規模言語モデル(LLM)であるLLaMA-2(70B)に代表される強力なテキストベースの推論能力を継承し、事前学習済みのアライナーモジュールを用いて、モダリティ固有の信号を統合的なテキスト空間に変換する。さらに、単なる質疑応答(QA)を越える多様なトピックおよびタスクをカバーするように手動で収集したマルチモーダルインストラクションデータセットを用いてモデルをファインチューニングすることで、マルチモーダルLLMの能力を強化している。本研究では、人間評価と自動評価を含む包括的な実証分析を行い、さまざまなマルチモーダルタスクにおいて最先端の性能を示した。