17日前

Lyra:包括全认知在内的効率的かつ音声中心のフレームワーク

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
Lyra:包括全认知在内的効率的かつ音声中心のフレームワーク
要約

マルチモーダル大規模言語モデル(MLLMs)の進化に伴い、単一ドメインにとどまらず多様な能力を有するモデルへの拡張は、より汎用的かつ効率的なAIの実現に不可欠である。しかし、これまでのオムニモデルは音声の扱いに十分な注目を払っておらず、マルチモーダルな統合において音声の統合が不十分であった。本研究では、高度な長時間音声理解、音声認識、モーダル間の効率性、およびスムーズな音声インタラクションを実現する効率的なMLLM「Lyra」を提案する。効率性と音声中心の機能を実現するために、Lyraは以下の3つの戦略を採用している。(1)既存のオープンソース大規模モデルと提案するマルチモーダルLoRAを活用し、学習コストとデータ要件を低減する。(2)潜在空間におけるマルチモーダル正則化器および抽出器を用いて、音声と他のモーダルとの関係を強化することで、モデル性能を向上させる。(3)150万件のマルチモーダル(言語、視覚、音声)データサンプルおよび12,000件の長時間音声サンプルを含む高品質で大規模なデータセットを構築し、複雑な長時間音声入力を処理可能にし、より堅牢なオムニ認知を実現する。他のオムニ手法と比較して、Lyraは視覚言語、視覚音声、音声言語の各種ベンチマークにおいて最先端の性能を達成するとともに、計算リソースと学習データの消費量を大幅に削減している。

Lyra:包括全认知在内的効率的かつ音声中心のフレームワーク | 最新論文 | HyperAI超神経