HyperAI超神经
6 days ago

OpenS2S:推进开源端到端共情大语言模型

Chen Wang, Tianyu Peng, Wen Yang, Yinan Bai, Guangfu Wang, Jun Lin, Lanpeng Jia, Lingxiang Wu, Jinqiao Wang, Chengqing Zong, Jiajun Zhang
OpenS2S:推进开源端到端共情大语言模型
摘要

共情交互是人机通信的基石,因为需要理解包含副语言线索的语音并生成情感丰富和表达性的回应。然而,最强大的共情LSLM(大型语言模型)越来越封闭,使得研究人员对这些模型的架构、数据和开发细节知之甚少。鉴于对透明研究LSLM和共情行为的迫切需求,我们推出了OpenS2S,这是一个完全开源、透明且端到端的LSLM,旨在实现共情语音交互。基于我们的共情语音转文字模型BLSP-Emo,OpenS2S进一步采用了流式交错解码架构,以实现低延迟的语音生成。为了便于端到端训练,OpenS2S集成了一个自动化数据构建管道,能够在低成本下合成多样且高质量的共情语音对话。通过利用大型语言模型生成共情内容,并使用可控的文字转语音系统引入说话者和情感变化,我们构建了一个具有丰富副语言多样性和最少人工监督的可扩展训练语料库。我们发布了完全开源的OpenS2S模型,包括数据集、模型权重、预训练和微调代码,以赋能更广泛的研究社区并加速共情语音系统的创新。项目网页可通过此https链接访问。 请注意,在实际应用中,“https URL”通常会被具体的网址所替代。如果需要提供具体网址,请告知我该网址的具体内容。