HyperAIHyperAI

Command Palette

Search for a command to run...

Spirit LM:交错式语音与文本语言模型

摘要

我们提出 Spirit LM,一种基础性的多模态语言模型,能够自由混合文本与语音。该模型基于一个 70 亿参数的预训练文本语言模型,并通过在文本与语音单元上持续训练,将其扩展至语音模态。语音与文本序列被拼接为单一的标记流,并采用一种基于词级交错的训练方法,使用一个小型自动构建的语音-文本平行语料库进行训练。Spirit LM 提供两个版本:基础版(Base)使用语音音素单元(HuBERT),而增强版(Expressive)在音素单元的基础上,额外引入音高(pitch)与风格(style)单元以建模语音的表达性。两个版本均使用子词 BPE 标记对文本进行编码。所得到的模型兼具文本模型的语义理解能力与语音模型的表达能力。此外,我们验证了 Spirit LM 能够在跨模态场景下以少量示例(few-shot)方式学习新任务,例如自动语音识别(ASR)、文本转语音(TTS)以及语音分类。我们已公开模型权重与推理代码。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供