摘要
我们推出并发布了一款名为 Spleeter 的新型音乐源分离工具,该工具基于预训练模型。Spleeter 的设计注重易用性、分离性能与运行速度。Spleeter 基于 TensorFlow [1] 构建,支持以下功能:仅需一条命令行即可使用预训练模型,将音频文件分离为 2、4 或 5 个音轨(stem);在拥有独立音源数据集的前提下,可使用 TensorFlow 训练新的源分离模型,或对预训练模型进行微调。在性能方面,预训练模型的表现已非常接近当前已发表的最先进水平。据作者所知,Spleeter 是首个在通用音乐数据集 MusDB18 [6] 上公开发布的、在 4 音轨分离任务中表现最佳的模型。此外,Spleeter 具有极高的运行效率:在单个图形处理单元(GPU)上,使用预训练的 4 音轨模型,可实现比实时速度快 100 倍的音频分离速度。Spleeter 以 Docker 容器形式打包,可直接在多种平台环境中部署使用,无需复杂配置。