Command Palette
Search for a command to run...
ライラ:包括認知を統合的に扱うための効率的でスピーチ中心のフレームワーク
ライラ:包括認知を統合的に扱うための効率的でスピーチ中心のフレームワーク
概要
マルチモーダル大規模言語モデル(MLLM)の進化に伴い、単一領域に限定された能力を超えて、より多様かつ効率的なAIを実現するためには、多様なモダリティを統合した汎用的な能力の拡張が不可欠である。しかし、これまでのオムニモデルは音声に関する研究が不十分であり、音声と他のモダリティとの統合が十分に検討されてこなかった。本研究では、高度な長時間音声理解、音響情報の認識、モダリティ間の効率性、そしてスムーズな音声対話といったマルチモーダル能力を強化する、効率的なMLLM「Lyra」を提案する。効率性と音声中心の性能を実現するため、Lyraは以下の3つの戦略を採用している。(1)既存のオープンソース大規模モデルと、提案するマルチモーダルLoRAを活用することで、学習コストとデータ要求量を削減;(2)潜在空間におけるマルチモーダル正則化項と抽出機構を導入し、音声と他のモダリティとの関係性を強化することで、モデル性能を向上;(3)150万件のマルチモーダル(言語、視覚、音声)データサンプルおよび1.2万件の長時間音声サンプルを含む高品質で大規模なデータセットを構築し、複雑な長時間音声入力に対応可能にするとともに、より強固なオムニ認知能力を実現。他のオムニ手法と比較して、Lyraは視覚-言語、視覚-音声、音声-言語の各ベンチマークにおいて最先端の性能を達成しつつ、計算リソースの使用量と学習データ量をより少なく抑えることが可能である。