HyperAI超神经

研究人员提出了一种名为SongGen的开放源代码单阶段自回归变压器模型，旨在实现可控的歌曲生成。该模型能够直接从文本、歌词和参考声音生成完整的歌曲，简化了传统的多阶段方法。SongGen支持两种生成模式：混合模式和双轨道模式。混合模式通过X-Codec对音频进行编码，并引入辅助损失来提升声乐质量。双轨道模式则分别生成声乐和伴奏，并通过并行或交错模式进行同步。为了提高生成的准确性，模型采用了多种编码策略，包括VoiceBPE分词器、MERT编码器和FLAN-T5进行特征提取和嵌入。实验结果表明，SongGen在文本相关性和声乐控制方面优于现有的模型，如MusicGen和Stable Audio Open。尽管只使用了2000小时的标注数据，SongGen仍然表现出色。此外，模型的注意力分析显示其能够有效捕捉音乐结构，并保持生成内容的一致性。研究还指出了模型在模仿声音方面的潜在伦理问题，呼吁加强保护以防止滥用。总体而言，SongGen为可控的文本到歌曲生成提供了一个基线，未来研究可以在此基础上进一步提升音频质量和表达能力。

相关链接

相关链接

相关链接

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

Command Palette

SongGen：一个完全开源的单阶段自回归变压器，专为可控歌曲生成设计

相关链接

Command Palette

SongGen：一个完全开源的单阶段自回归变压器，专为可控歌曲生成设计

相关链接

Command Palette

SongGen：一个完全开源的单阶段自回归变压器，专为可控歌曲生成设计

相关链接

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集

本地可跑的隐私检测模型：Privacy Filter 低成本实现高质量 PII 过滤；硬核开源！涵盖超 8 万场比赛的 Transfermarkt 结构化足球数据集