17 天前

Lyra:一种高效且以语音为中心的全认知框架

Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia
Lyra:一种高效且以语音为中心的全认知框架
摘要

随着多模态大语言模型(MLLMs)的不断发展,突破单一领域能力的局限,实现更广泛、更高效的通用人工智能已成为迫切需求。然而,以往的通用模型在语音模态方面仍存在明显不足,未能充分探索语音与多模态的深度融合。为此,我们提出了Lyra——一种高效且以语音为中心的多模态大语言模型,显著提升了多模态理解能力,涵盖先进的长语音理解、声音感知、跨模态效率以及无缝语音交互等关键特性。为实现高效性与以语音为核心的能力,Lyra采用三项关键技术策略:(1)基于现有的开源大模型,并引入一种新型多模态LoRA(Low-Rank Adaptation)方法,有效降低训练成本与数据依赖;(2)设计潜空间多模态正则化器与特征提取器,强化语音与其他模态(如视觉、语言)之间的关联性,从而提升模型整体性能;(3)构建了一个高质量、大规模的多模态数据集,包含150万组多模态数据样本(涵盖语言、视觉与音频)以及1.2万条长语音样本,使Lyra能够有效处理复杂的长语音输入,实现更鲁棒的全模态认知能力。相较于其他通用模型方法,Lyra在多个视觉-语言、视觉-语音及语音-语言基准测试中均取得了当前最优的性能表现,同时显著减少了计算资源消耗与训练数据需求,展现出卓越的效率与泛化能力。