2 个月前

ByteCover:基于多损失训练的翻唱歌曲识别

Xingjian Du; Zhesong Yu; Bilei Zhu; Xiaoou Chen; Zejun Ma
ByteCover:基于多损失训练的翻唱歌曲识别
摘要

本文介绍了ByteCover,这是一种新的用于翻唱歌曲识别(CSI)的特征学习方法。ByteCover基于经典的ResNet模型构建,并设计了两项主要改进以进一步提升该模型在CSI任务中的能力。首先,在第一项改进中,我们引入了实例归一化(IN)和批归一化(BN)的结合,构建了IBN模块,这是我们的ResNet-IBN模型的主要组成部分。借助IBN模块,我们的CSI模型可以学习到对音乐属性如调性、节奏、音色和流派变化具有不变性的特征,同时保留版本信息。其次,在第二项改进中,我们采用了BNNeck方法,允许进行多损失训练,并鼓励我们的方法同时优化分类损失和三元组损失,从而确保翻唱歌曲在类间具有区分性和类内具有紧凑性。一系列实验验证了ByteCover在多个数据集上的有效性和高效性,并且在Da-TACOS数据集中,ByteCover的表现优于最佳竞争系统20.9%。