HyperAI超神经

摘要

我们提出 Spirit LM，一种基础性的多模态语言模型，能够自由混合文本与语音。该模型基于一个 70 亿参数的预训练文本语言模型，并通过在文本与语音单元上持续训练，将其扩展至语音模态。语音与文本序列被拼接为单一的标记流，并采用一种基于词级交错的训练方法，使用一个小型自动构建的语音-文本平行语料库进行训练。Spirit LM 提供两个版本：基础版（Base）使用语音音素单元（HuBERT），而增强版（Expressive）在音素单元的基础上，额外引入音高（pitch）与风格（style）单元以建模语音的表达性。两个版本均使用子词 BPE 标记对文本进行编码。所得到的模型兼具文本模型的语义理解能力与语音模型的表达能力。此外，我们验证了 Spirit LM 能够在跨模态场景下以少量示例（few-shot）方式学习新任务，例如自动语音识别（ASR）、文本转语音（TTS）以及语音分类。我们已公开模型权重与推理代码。

摘要

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov

摘要

用 AI 构建 AI

HyperAI Newsletters

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov

摘要

用 AI 构建 AI

HyperAI Newsletters

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Spirit LM：交错式语音与文本语言模型

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov6 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Spirit LM：交错式语音与文本语言模型

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov6 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

Spirit LM：交错式语音与文本语言模型

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov6 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov

Tu Anh Nguyen Benjamin Muller Bokai Yu Marta R. Costa-jussa Maha Elbayad Sravya Popuri Christophe Ropers Paul-Ambroise Duquenne Robin Algayres Ruslan Mavlyutov