HyperAIHyperAI

Command Palette

Search for a command to run...

AnyMAL:効率的かつスケーラブルな任意モダリティ拡張型言語モデル

概要

本稿では、多様な入力モダリティ信号(テキスト、画像、動画、音声、IMUモーションセンサなど)を統合的に処理し、テキスト応答を生成する統合型モデル「Any-Modality Augmented Language Model(AnyMAL)」を提案する。AnyMALは、最新の大規模言語モデル(LLM)であるLLaMA-2(70B)に代表される強力なテキストベースの推論能力を継承し、事前学習済みのアライナーモジュールを用いて、モダリティ固有の信号を統合的なテキスト空間に変換する。さらに、単なる質疑応答(QA)を越える多様なトピックおよびタスクをカバーするように手動で収集したマルチモーダルインストラクションデータセットを用いてモデルをファインチューニングすることで、マルチモーダルLLMの能力を強化している。本研究では、人間評価と自動評価を含む包括的な実証分析を行い、さまざまなマルチモーダルタスクにおいて最先端の性能を示した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています