9 天前

AudioLM:一种基于语言建模的音频生成方法

Zalán Borsos, Raphaël Marinier, Damien Vincent, Eugene Kharitonov, Olivier Pietquin, Matt Sharifi, Dominik Roblek, Olivier Teboul, David Grangier, Marco Tagliasacchi, Neil Zeghidour
AudioLM:一种基于语言建模的音频生成方法
摘要

我们提出 AudioLM,一种用于生成高质量、具有长期一致性的音频的框架。AudioLM 将输入音频映射为离散标记序列,并将音频生成任务转化为该表示空间中的语言建模问题。我们展示了现有音频分词器在重建质量与长期结构之间存在的不同权衡,并提出一种混合分词方案,以同时实现这两个目标。具体而言,我们利用在音频数据上预训练的掩码语言模型所产生的离散激活值来捕捉长期结构,同时结合神经音频编解码器生成的离散码以实现高质量的音频合成。通过在大规模原始音频波形数据上进行训练,AudioLM 能够根据简短的提示生成自然且连贯的音频延续。当在语音数据上训练时,即使未使用任何转录文本或标注信息,AudioLM 仍能生成语法和语义上合理的语音延续,同时保持未见说话人的语音身份特征与语调特性。此外,我们还证明,该方法的应用不仅限于语音,即使未引入任何音乐的符号化表示,也能成功生成连贯的钢琴音乐延续。