9 天前

Spirit LM:交错式语音与文本语言模型

Tu Anh Nguyen, Benjamin Muller, Bokai Yu, Marta R. Costa-jussa, Maha Elbayad, Sravya Popuri, Christophe Ropers, Paul-Ambroise Duquenne, Robin Algayres, Ruslan Mavlyutov, Itai Gat, Mary Williamson, Gabriel Synnaeve, Juan Pino, Benoit Sagot, Emmanuel Dupoux
Spirit LM:交错式语音与文本语言模型
摘要

我们提出 Spirit LM,一种基础性的多模态语言模型,能够自由混合文本与语音。该模型基于一个 70 亿参数的预训练文本语言模型,并通过在文本与语音单元上持续训练,将其扩展至语音模态。语音与文本序列被拼接为单一的标记流,并采用一种基于词级交错的训练方法,使用一个小型自动构建的语音-文本平行语料库进行训练。Spirit LM 提供两个版本:基础版(Base)使用语音音素单元(HuBERT),而增强版(Expressive)在音素单元的基础上,额外引入音高(pitch)与风格(style)单元以建模语音的表达性。两个版本均使用子词 BPE 标记对文本进行编码。所得到的模型兼具文本模型的语义理解能力与语音模型的表达能力。此外,我们验证了 Spirit LM 能够在跨模态场景下以少量示例(few-shot)方式学习新任务,例如自动语音识别(ASR)、文本转语音(TTS)以及语音分类。我们已公开模型权重与推理代码。

Spirit LM:交错式语音与文本语言模型 | 最新论文 | HyperAI超神经