11 天前

用于音乐源分离的混合Transformer

Simon Rouard, Francisco Massa, Alexandre Défossez
用于音乐源分离的混合Transformer
摘要

在音乐源分离(Music Source Separation, MSS)领域,一个自然提出的问题是:长程上下文信息是否具有实际价值,抑或仅依赖局部声学特征即可满足需求。在其他研究领域中,基于注意力机制的Transformer模型已展现出有效整合长序列信息的能力。本文提出了一种新型混合Transformer-DeMucs(HT DeMucs)架构,该模型基于混合DeMucs结构,采用时空-频谱双U-Net设计,其中最内层结构被一个跨域Transformer编码器所替代,该编码器在单一域内使用自注意力机制,在不同域之间采用交叉注意力机制。实验表明,当仅在MUSDB数据集上训练时,该模型表现不佳;然而,当额外引入800首训练歌曲后,其在信噪比(SDR)指标上相比原始混合DeMucs(在同一数据集上训练)提升了0.45 dB。通过引入稀疏注意力核以扩展感受野,并结合按源微调策略,该模型在使用额外训练数据的情况下,于MUSDB基准上取得了当前最优性能,达到9.20 dB的SDR,实现了该任务的最新技术水平。

用于音乐源分离的混合Transformer | 最新论文 | HyperAI超神经