中国科学院发布Stream-Omni:以文本为中心的跨模态实时AI模型
来自中国科学院的研究团队提出了一种新型的多模态实时人工智能模型——Stream-Omni。这款模型旨在解决目前多模态系统中存在的重要挑战:如何在视觉、文本和语音之间实现高效的模态对齐。 当前的大型多模态模型(LMMs)大致可以分为三类:以视觉为中心的模型、以语音为中心的模型和全能型多模态模型。视觉中心的模型如LLaVA通过视觉编码器抽取图像特征并与文本输入结合,生成文本输出;语音中心的模型则通过连续方法将语音特征映射到LLM嵌入空间,或者将语音转换为离散单元直接输入到LLM中进行处理;而全能型多模态模型如VITA-1.5、MiniCPM2.6-o和Qwen2.5-Omni则是将各种模态的表示提取后拼接起来,用于多模态理解,并通过语音解码器合成输出。 然而,这些模型在处理跨模态任务时面临诸多挑战。例如,基于数据驱动的方法依赖于大规模的多模态数据,而目前可用的三模态数据集非常有限,导致模态对齐不够灵活,难以在语音交互过程中生成中间文本结果。 为了克服这些局限,中科院大学的研究人员提出了Stream-Omni。该模型采用一个以文本为中心的对齐方法,利用LLM骨干网络,通过语义关系而非简单的拼接方式来对齐视觉和语音模态。具体来说,对于视觉与文本的对齐,Stream-Omni使用视觉编码器和投影层来提取图像特征,并将其与文本序列维度对齐。对于语音与文本的对齐,则引入了一个基于连接时序分类(CTC)的层维度对齐方法,实现了语音和文本模态的双向映射。这种设计避免了传统拼接方法带来的模态干扰问题。 在具体的架构上,Stream-Omni利用自动化管道构建训练数据集,使用LLaVA数据集进行视觉和文本对齐的训练,利用LibriSpeech和WenetSpeech进行语音和文本数据的训练,并创建了InstructOmni数据集,通过将现有的指令数据集转换为语音进行扩展。这些数据集的组合使得Stream-Omni能够在不同模态间实现更高效的对齐。 在性能评测方面,Stream-Omni在视觉理解任务中表现出色,其性能与先进的视觉中心LMMs相当,甚至超过了VITA-1.5,有效减少了模态干扰。在语音互动任务中,Stream-Omni仅使用23000小时的语音数据就展示了出色的知识基础性能,这比使用离散语音单元的模型如SpeechGPT、Moshi和GLM-4-Voice所需的语音数据量少得多。此外,在SpokenVisIT基准上的评估显示,Stream-Omni在现实世界的视觉理解能力上也显著优于VITA-1.5。在LibriSpeech基准上的测试进一步证明了其卓越的自动语音识别(ASR)性能,既提高了识别准确性又缩短了推理时间。 综上所述,Stream-Omni不仅解决了当前多模态系统中的对齐难题,还开创了一种新的范式,即通过语义关系的定向对齐策略来克服传统拼接方法的局限性。这一成果标志着多模态AI领域的重大突破,有望推动更多应用场景的发展。 业内人士对这项研究给予了高度评价,认为Stream-Omni的创新设计为其在多模态领域内的广泛适用性奠定了基础,特别是其在有限的三模态数据下仍能展现出强大的性能。中国科学院大学在人工智能研究方面一直处于国际领先地位,此次推出Stream-Omni进一步巩固了其在多模态智能领域的地位。