SongGen:一个完全开源的单阶段自回归变压器,专为可控歌曲生成设计
研究人员提出了一种名为SongGen的开放源代码单阶段自回归变压器模型,旨在实现可控的歌曲生成。该模型能够直接从文本、歌词和参考声音生成完整的歌曲,简化了传统的多阶段方法。SongGen支持两种生成模式:混合模式和双轨道模式。混合模式通过X-Codec对音频进行编码,并引入辅助损失来提升声乐质量。双轨道模式则分别生成声乐和伴奏,并通过并行或交错模式进行同步。为了提高生成的准确性,模型采用了多种编码策略,包括VoiceBPE分词器、MERT编码器和FLAN-T5进行特征提取和嵌入。实验结果表明,SongGen在文本相关性和声乐控制方面优于现有的模型,如MusicGen和Stable Audio Open。尽管只使用了2000小时的标注数据,SongGen仍然表现出色。此外,模型的注意力分析显示其能够有效捕捉音乐结构,并保持生成内容的一致性。研究还指出了模型在模仿声音方面的潜在伦理问题,呼吁加强保护以防止滥用。总体而言,SongGen为可控的文本到歌曲生成提供了一个基线,未来研究可以在此基础上进一步提升音频质量和表达能力。
